您的位置:首页 > 其它

论文笔记:ImageNet Classification with Deep Convolutional Neural Networks

2017-12-04 12:46 597 查看

ImageNet Classification with Deep Convolutional Neural Networks

概要

提出了深度卷积神经网络模型Alexnet,用于对ImageNet图像数据集进行分类。在2012年ILSVRC分类比赛取得top-5错误率15.3%获得冠军。

基于ImageNet训练了卷积神经网络,获得了当时为止最好的分类结果

实现了基于GPU优化的卷积和其他计算,用于训练CNN

引入了一些新的用于提高CNN表现及减少过拟合的技术

数据集

ImageNet是一个包含约22000个类的约1500万张标记图像的数据集。ILSVRC比赛使用ImageNet的子数据集,包含约1000个类。

预处理:将所有图像处理为256x256,若图像为长方形,则将短边变换为256长边取中间区域。

网络结构

整个网络包括5层卷积层和3层全连接层,其中使用了一些当时的新技术。

ReLU

文章提出了新的激活函数ReLU:



对于深度卷积神经网络,使用ReLU的训练速度远远快于tanh。



多GPU训练

当时的GTX580GPU只有3GB内存,大大限制了可训练的网络大小。

文章将网络拆分在了两个GPU上进行训练,将top-1和top-5错误率降低了1.7%和1.2%。

LRN

文章提出了局部响应归一化LRN:



其中ax,yi表示(x,y)位置上第i个kernel的计算结果。

网络再一些特定层的ReLU激活函数后采用了LRN,参数:k=2,n=5,α=10-4,β=0.75,将top-1和top-5错误率降低了1.4%和1.2%。

重叠池化

网络使用了大小为3x3,步长为2的池化层,使得池化时有重叠部分,将top-1和top-5错误率降低了0.4%和0.3%。

整体结构



第1个卷积层对224x224x3的图像使用96个11x11x3,步长为4的卷积核进行卷积(图中分为两行是指拆分在两个GPU上计算)。第2个卷积层为256个5x5x48的卷积核,第3个卷积层使用384个3x3x256的卷积核,第4个卷积层为384个3x3x192,第5层256个3x3x192。全连接层每层有4096个神经元,最后输出为1000个。

减少过拟合

数据增强

对于256x256的图像,随机选取其中的224x224图像及其水平翻转后的图像作为训练数据,使得训练数据量扩大了2048倍,大大减少了过拟合。预测时取被测图像四个角和中间的224x224图像,计算结果的平均值。

另一个方法是交换图像RGB通道的强度。文章先对RGB像素值作主成分分析,然后对每张训练图像的像素值,加上主成分乘对应特征值和均值为1,标准差0.1的随机值的积:



这种方法可以降低top-1错误率1%。

dropout

dropout以一定概率将神经元设置为0,使之不参与计算。即对每个输入神经网络的结构都不同,但权重共享。在测试时所有神经元都使用,但输出乘0.5。这种方法可以有效减少过拟合。

训练细节

训练使用随机梯度下降,每个batch128个样本,学习率0.0005。

权值初始化采用均值为0,标准差为0.01的高斯分布,第2/4/5卷积层和全连接层的偏置为1,其余为0。

结果

在ILSVRC-2010数据集上网络取得了top-1和top-5错误率37.5%和17.0%。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  alexnet cnn
相关文章推荐