深度学习论文-Cyclical Learning Rates for Training Neural Networks
2016-11-17 15:58
896 查看
这篇论文是从学习率的角度来谈怎么训练深度网络的。(论文中提供了toch 7和caffe的实现源码)
提出了一种新的学习率方法,叫cyclical learning rates,简称CLR。
和从前的学习率不同,或者固定(fixed)或者单调递减,这是周期性变化。有三个参数,max_lr,base_lr,stepsize,即上下边界和步长。
论文中给出了三个参数的设定办法。方法取名为triangular
stepsize=(样本个数/batchsize)*(2~10)
先将max_lr设置为stepsize同样的值,base_lr为原架构的初始值,然后以此迭代5到10个epoch,画学习率与准确率之间的关系图,找最开始收敛的点和收敛后第一个下降的点,记录下来作为base_lr和max_lr的值。
并将CLR方法做了两个变异,分别是triangular2和exp range。
triangular2:同triangular非常相似,除了在每一迭代周期结束时,学习率差减小一半,即每个周期后学习率差异下降。
exp_range(指数范围):学习率在最大和最小边界内变化,每一个边界值通过一个指数因子下降。
实验在cifar10和cifar100上torch 7平台,三种网络结构: ResNets, Stochastic Depth (SD) ,DenseNets 上分别用固定学习率和CLR学习率(0.1~0.3)做了比较,性能较优。
另外是在cifar10上,caffe平台提供的默认的cifar10的网络架构只需要20000次训练的结果等同于之前需要训练75000次的结果,大大节省了训练开销。
在ImageNet数据集上,是用caffe平台,网络结构为AlexNet。
实验做得很详细,没有仔细去看,学习率的边界值设定和训练的次数这里也做了说明,还没怎么看明白,等有需要再看吧。
提出了一种新的学习率方法,叫cyclical learning rates,简称CLR。
和从前的学习率不同,或者固定(fixed)或者单调递减,这是周期性变化。有三个参数,max_lr,base_lr,stepsize,即上下边界和步长。
论文中给出了三个参数的设定办法。方法取名为triangular
stepsize=(样本个数/batchsize)*(2~10)
先将max_lr设置为stepsize同样的值,base_lr为原架构的初始值,然后以此迭代5到10个epoch,画学习率与准确率之间的关系图,找最开始收敛的点和收敛后第一个下降的点,记录下来作为base_lr和max_lr的值。
并将CLR方法做了两个变异,分别是triangular2和exp range。
triangular2:同triangular非常相似,除了在每一迭代周期结束时,学习率差减小一半,即每个周期后学习率差异下降。
exp_range(指数范围):学习率在最大和最小边界内变化,每一个边界值通过一个指数因子下降。
实验在cifar10和cifar100上torch 7平台,三种网络结构: ResNets, Stochastic Depth (SD) ,DenseNets 上分别用固定学习率和CLR学习率(0.1~0.3)做了比较,性能较优。
另外是在cifar10上,caffe平台提供的默认的cifar10的网络架构只需要20000次训练的结果等同于之前需要训练75000次的结果,大大节省了训练开销。
在ImageNet数据集上,是用caffe平台,网络结构为AlexNet。
实验做得很详细,没有仔细去看,学习率的边界值设定和训练的次数这里也做了说明,还没怎么看明白,等有需要再看吧。
相关文章推荐
- 【深度学习论文笔记:Recognition】:Deep Neural Networks for Object Detection
- [深度学习论文笔记][Semantic Segmentation] Recurrent Convolutional Neural Networks for Scene Labeling
- deeplearning论文学习笔记(2)A critical review of recurrent neural networks for sequence learning
- 深度学习论文理解3:Flexible, high performance convolutional neural networks for image classification
- [深度学习论文笔记][Video Classification] Delving Deeper into Convolutional Networks for Learning Video Repre
- 《Neural Networks for Machine Learning》 by Hinton 学习笔记(一)
- [深度学习论文笔记][Semantic Segmentation] Learning Hierarchical Features for Scene Labeling
- 《Neural Networks for Machine Learning》学习二
- [深度学习论文笔记][Weight Initialization] Understanding the difficulty of training deep feedforward neural
- 《Neural Networks for Machine Learning》学习一
- Joint Deep Learning For Pedestrian Detection(论文笔记-深度学习:行人检测)
- [深度学习论文笔记][Semantic Segmentation] Learning Deconvolution Network for Semantic Segmentation
- deeplearning论文学习笔记(1)Convolutional Neural Networks for Sentence Classification
- 中文译文:Minerva-一种可扩展的高效的深度学习训练平台(Minerva - A Scalable and Highly Efficient Training Platform for Deep Learning)
- 深度学习论文笔记-Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
- 【深度学习】论文导读:图像识别中的深度残差网络(Deep Residual Learning for Image Recognition)
- 论文阅读:End-to-End Learning of Deformable Mixture of Parts and Deep Convolutional Neural Networks for H
- [深度学习论文笔记][Image Classification] Very Deep Convolutional Networks for Large-Scale Image Recognitio
- [深度学习论文笔记][Weight Initialization] Random walk initialization for training very deep feedforward netw
- [深度学习论文笔记][Human Pose Estimation] DeepPose: Human Pose Estimation via Deep Neural Networks