您的位置:首页 > 理论基础 > 计算机网络

深度学习-CNN卷积神经网络经典模型:AlexNet、VGG、GoogleNet、ResNet、U-Net

2018-02-09 17:23 1166 查看
学习李伟老师《深度学习》课程

AlexNet:现代神经网络的起源

基本构成:卷积层+池化层+全连接层

背景



截至 2016 年,ImageNet 中含有超过 1500 万由人手工注释的图片网址,也就是带标签的图片,标签说明了图片中的内容,超过 2.2 万个类别。其中,至少有 100 万张里面提供了边框(bounding box)。

从 2010 年以来,ImageNet 每年都会举办一次软件竞赛,也即 ImageNet 大规模视觉识别挑战赛(ILSVRC),参赛程序会相互比试,看谁能以最高的正确率对物体和场景进行分类和检测,不仅牵动着产学研三界的心,也是各团队、巨头展示实力的竞技场。

传统方法思路

1.图片特征提取

2.机器学习分类(SVM)

AlexNet结构

AlexNet使用两个GPU,共有5个卷积层,3个全连接层,第1,2,5这三个卷积层有pool池化层



层数名称说明
1第一层卷积层卷积核个数48*2,卷积核尺度11*11*3,步长为4,总的生成特征图单元数55*55*48*2
2第一层池化层输入特征图55*55,池化尺度3*3,步长为2,输出特征图尺度27*27,总的生成特征图单元数27*27*48*2
3第二层卷积层卷积核个数128*2,卷积核尺度5*5*3,步长为1,总的生成特征图27*27*128*2
4第二层池化层输入特征图27*27,池化尺度3*3,步长为2,输出特征图尺度13*13,总的生成特征图单元数13*13*128*2
5第三层卷积层卷积核个数192*2,卷积核尺度3*3*3,步长为1,总的生成卷积特征图单元数13*13*192*2
6第四层卷积层卷积核个数192*2,卷积核尺度3*3*3,步长为1,总的生成卷积特征图单元数13*13*192*2
7第五层卷积层卷积核个数128*2 ,卷积核尺度3*3*3,步长为1,总的生成卷积特征图单元数13*13*128*2
8第五层池化层输入特征图13*13,池化尺度3*3,步长2,输出特征图尺度6*6,总的生成特征图单元数6*6*256
9第一层全连接层输入特征图6*6*256,输出4096,全连接参数个数:6*6*256*4096
10第二层全连接层输入特征图单元数4096,输出4096,全连接参数个数:4096*4096
11第三层全连接层输出层,输入4096,输出特征图单元数1000,全连接参数个数:4096*1000

AlexNet相比传统的CNN的改动

Data Augmentation(数据增强),防止过拟合

Dropout方法,防止过拟合

ReLU激活函数代替了传统的Tanh或者Logistic

LRN(Local Response Normalization)局部响应归一化,就是临近的数据做归一化

VGG(AlexNet增强版本)

VGG:Visual Geometry Group

AlexNet结构:



VGG结构:



区别:当在AlexNet中式一个Cov卷积层的时候,在VGG中是一个卷积群,相当于把卷积层数变多了

VGG参数



VGG作用

结构简单:同AlexNet结构类似

性能优异:同AlexNet提升明显,同GoogleNet,ResNet相比表现接近,是选择最多的基本模型

由于Conv Group代替了Conv,所以VGG更深了

GoogleNet:多分辨率识别

inception mudle结构

Inception,这是一种网中网(Network In Network)的结构,即原来的结点也是一个网络。用了Inception之后整个网络结构的宽度和深度都可扩大。



a的结构有一些问题:

直接从previous接受特征图的数据会使得厚度非常大,叠加到一起使参数暴增,可以用1*1的Conv来进行数据降维(这是1*1Conv的好处)

所以添加了一个1*1的卷积核变成了b

GoogleNet(由多个inception mudle)



GoogleNet更加深了

全卷积结构(FCN)

一般神经网络结构:卷积层(CNN)+全连接层(FC)

全卷积结构:卷积层(CNN)

特点:

输入图片大小无限制

空间信息有丢失

参数更少,表达力更强

ResNet:机器超越人类识别



ResNet结构:



深度更深!!

ResNet 思路:供给两个连续卷积层的输出,并分流(bypassing)输入进入下一层

ResNet提出了一种减轻网络训练负担的残差学习框架,这种网络比以前使用过的网络本质上层次更深,本质上还是要解决层次比较深的时候无法训练的问题。网络相当于旁边专门开个通道使得输入可以直达输出,而优化的目标由原来的拟合输出H(x)变成输出和输入的差H(x)-x,其中H(X)是某一层原始的的期望映射输出,x是输入。

ResNet要学习的便是残差函数:F(x)=H(x)-x,残差块的结构是:



U-Net:图片生成网络



convolution卷积-deconvolution反卷积



实质:一个有学习能力的上采样

正常卷积:

下图表示参数为(输入尺寸5*5,卷积核尺寸3*3,步长2,padding 1),计算结果可以看出输出特征的尺寸为3*3



反卷积:





pooling池化-unpooling反池化(增维)

记住原来的位置,而不是

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐