您的位置:首页 > 理论基础 > 计算机网络

《神经网络设计》读书笔记——性能优化(三)

2017-07-18 11:22 197 查看

牛顿法

最速下降算法的导数是以一阶泰勒级数展开式为基础的

而牛顿法基于二阶泰勒级数展开式:

F(xk+1)=F(xk+Δxk)≈F(xk)+gTkΔxk+12ΔxTkAkxk

原理

求F(x)的二次近似的驻点,求这个二次函数对Δxk的梯度并设它为0,则有:

gk+AkΔxk=0

求解Δxk可得

Δxk=−A−1kgk

牛顿法可以定义为

Δxk+1=Δxk−A−1kgk

特点

牛顿法是用一个二次函数逼近F(x),然后求其驻点。

如果原函数为二次函数,且有强极小点,他就能够实现一步极小化。

如果原函数不是二次函数,无法一步极小化,甚至无法确定是否收敛

总结

牛顿法的收敛速度通常比最速下降法更快

牛顿法可能会收敛到鞍点(局部极小点)

牛顿法可能会震荡和发散
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: