您的位置：首页 > 理论基础 > 计算机网络

《神经网络设计》读书笔记——性能优化（三）

2017-07-18 11:22 197 查看

牛顿法

最速下降算法的导数是以一阶泰勒级数展开式为基础的

而牛顿法基于二阶泰勒级数展开式：

F(xk+1)=F(xk+Δxk)≈F(xk)+gTkΔxk+12ΔxTkAkxk

求F(x)的二次近似的驻点，求这个二次函数对Δxk的梯度并设它为0，则有：

gk+AkΔxk=0

求解Δxk可得

Δxk=−A−1kgk

牛顿法可以定义为

Δxk+1=Δxk−A−1kgk

牛顿法是用一个二次函数逼近F(x)，然后求其驻点。

如果原函数为二次函数，且有强极小点，他就能够实现一步极小化。

如果原函数不是二次函数，无法一步极小化，甚至无法确定是否收敛

牛顿法的收敛速度通常比最速下降法更快

牛顿法可能会收敛到鞍点（局部极小点）

牛顿法可能会震荡和发散

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航