不同的Active Function对应不同的Loss Function,其组合称为Canonical link functions。以linear regressionlogistic regressionsoftmax regression来说,对其Loss Function求导,他们有一个共同的梯度形式,即:

且上面3个模型都是convex的。

logistic regression使用squared error时。其梯度变成如下形式:

因此就算输出与真实值的误差很大,但是由于激活函数的梯度很小,导致最终反应在参数上的梯度变化几乎没有了。

References


bishop_PRML(chapter4)