您的位置：首页 > 大数据 > 人工智能

深度学习论文-Cyclical Learning Rates for Training Neural Networks

2016-11-17 15:58 896 查看

这篇论文是从学习率的角度来谈怎么训练深度网络的。（论文中提供了toch 7和caffe的实现源码）

提出了一种新的学习率方法，叫cyclical learning rates，简称CLR。

和从前的学习率不同，或者固定（fixed）或者单调递减，这是周期性变化。有三个参数，max_lr,base_lr,stepsize，即上下边界和步长。

论文中给出了三个参数的设定办法。方法取名为triangular

stepsize=（样本个数/batchsize）*（2~10）

先将max_lr设置为stepsize同样的值，base_lr为原架构的初始值，然后以此迭代5到10个epoch，画学习率与准确率之间的关系图，找最开始收敛的点和收敛后第一个下降的点，记录下来作为base_lr和max_lr的值。

并将CLR方法做了两个变异，分别是triangular2和exp range。

triangular2：同triangular非常相似，除了在每一迭代周期结束时，学习率差减小一半，即每个周期后学习率差异下降。

exp_range（指数范围）：学习率在最大和最小边界内变化，每一个边界值通过一个指数因子下降。

实验在cifar10和cifar100上torch 7平台，三种网络结构： ResNets， Stochastic Depth (SD) ，DenseNets 上分别用固定学习率和CLR学习率（0.1~0.3）做了比较，性能较优。

另外是在cifar10上，caffe平台提供的默认的cifar10的网络架构只需要20000次训练的结果等同于之前需要训练75000次的结果，大大节省了训练开销。

在ImageNet数据集上，是用caffe平台，网络结构为AlexNet。

实验做得很详细，没有仔细去看，学习率的边界值设定和训练的次数这里也做了说明，还没怎么看明白，等有需要再看吧。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航