即多类的logistic regression。基于torch的code

Principle

  • Hypothesis

  • Cost function
    使用 Multiclass Cross Entropy ,其是 convex 的。其形式如下:

  • Gradient
    由于t只有其中一个值为1,其他为0(如[1,0,0]),设第j个值为1,则:



    所以

properties

  1. 参数的冗余性
    由softmax的公式可以看出,其参数减去一个常数不改变,公式的值,即:

    时,我们发现是个多余的参数,其可以设为0。
  2. 二类时与logistic regression的关系

    由上可以看出其是个参数冗余的logistic regression
  3. 实现的技巧
    一般为了防止exp(x)的值过大,执行如下的操作: