• 原理
    其方法是使得收敛于,其中。函数的二阶泰勒公式展开为:


    时,为极值点,即:

  • 与Gradient Descent的比较

    1. newton method需要除以一个Hessian矩阵(即二阶偏导),即乘以其逆
    2. newton method不需要学习率参数
    3. newton method收敛更快,当f(x)在附近接近于二次函数时,其只需要一步更新就可以到达极值点
    4. newton method当特征维数较大时, 其Hessian可能不存在逆