您的位置：首页 > 其它

SGD，Adagrad，Adadelta，Adam等优化方法总结和比较

2017-02-09 09:46 323 查看

翻译总结：http://ycszen.github.io/2016/08/24/SGD%EF%BC%8CAdagrad%EF%BC%8CAdadelta%EF%BC%8CAdam%E7%AD%89%E4%BC%98%E5%8C%96%E6%96%B9%E6%B3%95%E6%80%BB%E7%BB%93%E5%92%8C%E6%AF%94%E8%BE%83/#comments

原文：http://sebastianruder.com/optimizing-gradient-descent/

SGD，Adagrad，Adadelta，Adam等优化方法总结和比较

发表于 2016-08-24   |   分类于技术笔记
|   2条评论
|   阅读次数 2543

前言

本文仅对一些常见的优化方法进行直观介绍和简单的比较，各种优化方法的详细内容及公式只好去认真啃论文了，在此我就不赘述了。

SGD

此处的SGD指mini-batch gradient descent，关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不细说了。现在的SGD一般都指mini-batch gradient descent。

SGD就是每一次迭代计算梯度，然后对参数进行更新，是最常见的优化方法了。

此处主要说下SGD的缺点：（正因为有这些缺点才让这么多大神发展出了后续的各种算法）
选择合适的learning rate比较困难
对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征，有时我们可能想更新快一些对于不经常出现的特征，对于常出现的特征更新慢一些，这时候SGD就不太能满足要求了
SGD容易收敛到局部最优，并且容易被困在鞍点

Momentum

momentum是模拟物理里动量的概念。它在相关方向加速SGD，抑制振荡，从而加快收敛

在梯度指向同一方向的维度，momentum项增加;

在梯度改变方向的维度，momentum项减少更新

Image1:不加momentum项的SGD

Image2:带momentum项的SGD

Nesterov

nesterov项在梯度更新时做一个校正，避免前进太快，同时提高灵敏度

Image3
momentum首先计算一个梯度(短的蓝色向量)，然后在加速更新梯度的方向进行一个大的跳跃(长的蓝色向量)，nesterov项首先在之前加速的梯度方向进行一个大的跳跃(棕色向量)，计算梯度然后进行校正(绿色梯向量)
其实，momentum项和nesterov项都是为了使梯度更新更加灵活，有不同情况有针对性。但是，人工设置一些学习率总还是有些生硬，接下来介绍几种自适应学习率的方法

Adagrad

此方法能对不常见的参数进行较大的更新，对于常见参数更新较小，不用手动调节学习率

缺点：

因为公式中分母上会累加梯度平方，这样在训练中持续增大的话，会使学习率非常小，甚至趋近无穷小

Adadelta

Adadelta是对Adagrad的扩展。

Adagrad会累加之前所有的梯度平方，而Adadelta只累加固定大小的项，并且也不直接存储这些项，仅仅是计算对应的平均值。

Adadelta甚至不用设置默认值。

RMSprop

RMSprop类似于Adadelta

Adam

Adam(Adaptive Moment Estimation)加上了bias校正和momentum，在优化末期，梯度更稀疏时，它比RMSprop稍微好点

经验之谈

对于稀疏数据，尽量使用学习率可自适应的优化方法，不用手动调节，而且最好采用默认值

SGD通常训练时间更长，容易陷入鞍点，但是在好的初始化和学习率调度方案的情况下，结果更可靠

如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法。

Adadelta，RMSprop，Adam是比较相近的算法，在相似的情况下表现差不多。
最后展示两张可厉害的图，一切尽在图中啊，上面的都没啥用了… …

Image4:损失平面等高线

Image5:在鞍点处的比较

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： dl

相关文章推荐

新的分享

章节导航