您的位置：首页 > 其它

梯度下降（BGD）、随机梯度下降（SGD）、Mini-batch Gradient Descent、带Mini-batch的SGD

2018-03-02 13:17 477 查看

原文：http://blog.csdn.net/llx1990rl/article/details/44001921

以均方误差作为目标函数（损失函数），目的是使其值最小化，用于优化上式。

也叫批量梯度下降法Batch Gradient Descent，BSD

原因：

SGD是最速梯度下降法的变种。
使用最速梯度下降法，将进行N次迭代，直到目标函数收敛，或者到达某个既定的收敛界限。每次迭代都将对m个样本进行计算，计算量大。
为了简便计算，SGD每次迭代仅对一个样本计算梯度，直到收敛。伪代码如下（以下仅为一个loop，实际上可以有多个这样的loop，直到收敛）：

（1）由于SGD每次迭代只使用一个训练样本，因此这种方法也可用作online learning。
（2）每次只使用一个样本迭代，若遇上噪声则容易陷入局部最优解。

（1）这是介于BSD和SGD之间的一种优化算法。每次选取一定量的训练样本进行迭代。
（2）从公式上似乎可以得出以下分析：速度比BSD快，比SGD慢；精度比BSD低，比SGD高。

（1）选择n个训练样本（n<m，m为总训练集样本数）
（2）在这n个样本中进行n次迭代，每次使用1个样本
（3）对n次迭代得出的n个gradient进行加权平均再并求和，作为这一次mini-batch下降梯度
（4）不断在训练集中重复以上步骤，直到收敛。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航