您的位置：首页 > 其它

学习笔记5 Supervised Convolutional Neural Network 之 Stochastic Gradient Descent

2016-02-16 00:06 218 查看

一、随机梯度下降

对比于批量梯度下降，随机梯度下降能够节省更多的时间，而且优化的整体趋势也是向着收敛的方向进行的。具体的优点，特点还有待进一步研究学习，这里先跳过。

随机梯度下降也有很多种方法。这里只介绍一种。

一般来说，学习速率是固定不变的，也就是是个常数。

但是，往往随着迭代的进行，学习速率需要改变。

这里增加了一个动量项momentum γ\gamma，还有velocity。

我们选择mini-batch的随机梯度方法，每一次用 mini-batch 数量的样本来训练，在这里还要注意一点，我们一般需要将样本进行打乱，也就是随机抽取。

接下来，首先设置epoch（时代），随着epoch的增加，α\alpha变小，比如，每增加一个epoch, α\alpha缩小一倍。而γ\gamma一般初始化为0.5，随着迭代增加而改变，比如，当迭代次数达到20次的时候变为0.9.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航