深度学习之神经网络结构——残差网络ResNet
2017-05-05 18:18
656 查看
Deep Residual Learning for Image Recognition
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
arxiv, 2015
残差网络Residual Network自提出之日起就声名大振,成为大家在介绍深度学习近年上位史时不得不讲的网络结构。目前引用量已达1900。
阅读原文,会发现通篇出现次数非常多的一个词”degradation”,之前的深度学习模型深度加深到一定程度后如果继续加深会使得损失增加(准确率降低),下图表明了误差和模型深度之间的关系:
可以看到56层的模型无论是训练误差还是测试误差都比26层的要大。为什么会出现这种情况?假设现在有一个稍浅的性能比较好的网络,现在在它后面加上多层网络,并且我们假设添加的多层网络拟合的是恒等函数,那么新网络的性能应该和原网络一样好才对。可是实验证明新网络的准确率降低了,这说明额外的多层网络并不能很好地拟合恒等函数。总结成数学表达就是:假设现在我们想用多层网络拟合函数H(x)=x,但是训练的神经网络找不到这个最优解。
现在我们粗暴的令
H(x)=F(x)+x,(1)
现在只需要让F(x)=0就可以得到H(x)=x。而公式(1)的一种网络结构如下:
上面的F(x)也可以是其他的网络结构,如卷积层。
这样由图2中的残差块组成的残差网络在没有增加参数数量和计算复杂度的情况下,解决了”degradation”问题,从而使得网络可以非常非常深。
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
arxiv, 2015
残差网络Residual Network自提出之日起就声名大振,成为大家在介绍深度学习近年上位史时不得不讲的网络结构。目前引用量已达1900。
阅读原文,会发现通篇出现次数非常多的一个词”degradation”,之前的深度学习模型深度加深到一定程度后如果继续加深会使得损失增加(准确率降低),下图表明了误差和模型深度之间的关系:
可以看到56层的模型无论是训练误差还是测试误差都比26层的要大。为什么会出现这种情况?假设现在有一个稍浅的性能比较好的网络,现在在它后面加上多层网络,并且我们假设添加的多层网络拟合的是恒等函数,那么新网络的性能应该和原网络一样好才对。可是实验证明新网络的准确率降低了,这说明额外的多层网络并不能很好地拟合恒等函数。总结成数学表达就是:假设现在我们想用多层网络拟合函数H(x)=x,但是训练的神经网络找不到这个最优解。
现在我们粗暴的令
H(x)=F(x)+x,(1)
现在只需要让F(x)=0就可以得到H(x)=x。而公式(1)的一种网络结构如下:
上面的F(x)也可以是其他的网络结构,如卷积层。
这样由图2中的残差块组成的残差网络在没有增加参数数量和计算复杂度的情况下,解决了”degradation”问题,从而使得网络可以非常非常深。
相关文章推荐
- 深度学习——残差神经网络ResNet在分别在Keras和tensorflow框架下的应用案例
- 【神经网络与深度学习】【python开发】caffe-windows使能python接口使用draw_net.py绘制网络结构图过程
- 深度学习与计算机视觉系列(6)_神经网络结构与神经元激励函数
- 深度学习与计算机视觉系列(6)_神经网络结构与神经元激励函数
- 深度学习基础(五):循环神经网络概念、结构及原理实现
- 【深度学习】在Caffe中配置神经网络的每一层结构
- 【深度学习】在Caffe中配置神经网络的每一层结构
- 深度学习与计算机视觉系列(6)_神经网络结构与神经元激励函数
- 深度学习: ResNet (残差) 网络
- 深度学习进阶(二)--神经网络结构算法以及梯度下降法
- 深度学习与计算机视觉系列(6)_神经网络结构与神经元激励函数
- 【神经网络与深度学习】如何在Caffe中配置每一个层的结构
- 深度学习论文随记(四)ResNet 残差网络-2015年Deep Residual Learning for Image Recognition
- 深度学习--Inception-ResNet-v1网络结构
- [深度学习]Deep Residual Learning for Image Recognition(ResNet,残差网络)阅读笔记
- 【深度学习】在Caffe中配置神经网络的每一层结构
- 深度学习笔记二:多层感知机(MLP)与神经网络结构
- 深度学习之神经网络结构——RNN_理解LSTM
- 深度学习-基础概念:神经元(Neurons)、Sigmoid 函数与神经网络基本结构
- 一文理解深度学习,卷积神经网络,循环神经网络的脉络和原理3-残差神经网络