自问自答1——为什么深度学习不采用牛顿法及其衍生算法作为优化算法?
2017-05-12 10:36
274 查看
原因一:牛顿法需要用到梯度和Hessian矩阵,这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式,遑论直接得到其梯度表达式,更不要说得到基于梯度的Hessian矩阵了。
原因二:即使可以得到梯度和Hessian矩阵,当输入向量的维度N较大时,Hessian矩阵的大小是N×N,所需要的内存非常大。
原因三:在高维非凸优化问题中,鞍点相对于局部最小值的数量非常多,而且鞍点处的损失值相对于局部最小值处也比较大。而二阶优化算法是寻找梯度为0的点,所以很容易陷入鞍点。
原因二:即使可以得到梯度和Hessian矩阵,当输入向量的维度N较大时,Hessian矩阵的大小是N×N,所需要的内存非常大。
原因三:在高维非凸优化问题中,鞍点相对于局部最小值的数量非常多,而且鞍点处的损失值相对于局部最小值处也比较大。而二阶优化算法是寻找梯度为0的点,所以很容易陷入鞍点。
相关文章推荐
- 为什么深度学习不采用牛顿法或拟牛顿法作为优化算法?
- SSE图像算法优化系列八:自然饱和度(Vibrance)算法的模拟实现及其SSE优化(附源码,可作为SSE图像入门,Vibrance算法也可用于简单的肤色调整)。
- 一个连通图,采用邻接表作为存储结构,设计一个算法从顶点v出发的深度优化遍历的非递归过程
- 一个连通图,采用邻接表作为存储结构,设计一个算法从顶点v出发的深度优化遍历的非递归过程
- Bellman-Ford 算法及其优化(转)
- Diffie-Hellman密钥交换算法及其优化
- 【工程优化】最优化算法--牛顿法、阻尼牛顿法及单纯形法
- 图像算法移植到DSP及其优化步骤
- 为什么Windows采用\r\n作为回车的输入值?
- 图像算法移植到DSP及其优化步骤
- 深度学习(Deep Learning)算法简介及其成功应用
- 【算法导论-006】冒泡排序及其优化(BubbleSort)
- 【Algorithm】一般约束优化问题——PHR算法及其Matlab实现
- Bellman-Ford 算法及其优化
- Bellman-Ford 算法及其优化(转) 收藏
- 搜索引擎算法研究专题二:HITS算法及其衍生算法分析
- Stanford 算法入门 week 5 dijkstra 及其堆优化 stringstream
- ssl运行机制中,为什么不直接采用pms作为会话密钥
- 【工程优化】最优化算法--牛顿法、阻尼牛顿法及单纯形法
- Diffie-Hellman密钥交换算法及其优化