您的位置:首页 > 其它

学习笔记5 Supervised Convolutional Neural Network 之 Stochastic Gradient Descent

2016-02-16 00:06 218 查看
一、随机梯度下降

对比于批量梯度下降,随机梯度下降能够节省更多的时间,而且优化的整体趋势也是向着收敛的方向进行的。具体的优点,特点还有待进一步研究学习,这里先跳过。

随机梯度下降也有很多种方法。这里只介绍一种。



一般来说,学习速率是固定不变的,也就是是个常数。

但是,往往随着迭代的进行,学习速率需要改变。



这里增加了一个动量项momentum γ\gamma,还有velocity。

我们选择mini-batch的随机梯度方法,每一次用 mini-batch 数量的样本来训练,在这里还要注意一点,我们一般需要将样本进行打乱,也就是随机抽取。

接下来,首先设置epoch(时代),随着epoch的增加,α\alpha变小,比如,每增加一个epoch, α\alpha缩小一倍。而γ\gamma一般初始化为0.5,随着迭代增加而改变,比如,当迭代次数达到20次的时候变为0.9.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: