即在linear regression的基础上加上sigmod激活函数, 用于二分分类,基于torch的th linear_model.lua

原理


  • Hypothesis

  • Cost function
    使用 Cross Entropy,其是 convex (使用MSE则为 nonconvex ),如下:
    其其实是 Log Maximum Likehood , 推导如下:

  • Gradient
    由于

    因此

  • Properties

    1. 当样本线性可分时,其会严重过拟合
      当所有样样本的,意味着,则w的量级为 (由于计算机的进度问题,一般exp(700)左右就无法表达了,因此不会出现太严重的过拟合)。可以通过weight decay来限制w的量级
    2. 当样本线性可分时,其有多个解
      任何一条将所有样本分开的分类线都是其解( 参数的初始值不同,其结果就可能不同 ),可以通过weight decay解决
    3. 远离分类面的点(被正确分类的样本)对分类面的影响不是很大

References


  1. bishop_PRML(chapter4.3.2)
  2. A comparison of numerical optimizers for logistic regression