您的位置:首页 > 大数据 > 人工智能

深度学习论文-Cyclical Learning Rates for Training Neural Networks

2016-11-17 15:58 896 查看
这篇论文是从学习率的角度来谈怎么训练深度网络的。(论文中提供了toch 7和caffe的实现源码)

提出了一种新的学习率方法,叫cyclical learning rates,简称CLR。

和从前的学习率不同,或者固定(fixed)或者单调递减,这是周期性变化。有三个参数,max_lr,base_lr,stepsize,即上下边界和步长。

论文中给出了三个参数的设定办法。方法取名为triangular

stepsize=(样本个数/batchsize)*(2~10)

先将max_lr设置为stepsize同样的值,base_lr为原架构的初始值,然后以此迭代5到10个epoch,画学习率与准确率之间的关系图,找最开始收敛的点和收敛后第一个下降的点,记录下来作为base_lr和max_lr的值。

并将CLR方法做了两个变异,分别是triangular2和exp range。

triangular2:同triangular非常相似,除了在每一迭代周期结束时,学习率差减小一半,即每个周期后学习率差异下降。

exp_range(指数范围):学习率在最大和最小边界内变化,每一个边界值通过一个指数因子下降。





实验在cifar10和cifar100上torch 7平台,三种网络结构:  ResNets, Stochastic Depth (SD) ,DenseNets 上分别用固定学习率和CLR学习率(0.1~0.3)做了比较,性能较优。

另外是在cifar10上,caffe平台提供的默认的cifar10的网络架构只需要20000次训练的结果等同于之前需要训练75000次的结果,大大节省了训练开销。

在ImageNet数据集上,是用caffe平台,网络结构为AlexNet。

实验做得很详细,没有仔细去看,学习率的边界值设定和训练的次数这里也做了说明,还没怎么看明白,等有需要再看吧。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐