您的位置：首页 > 运维架构 > 网站架构

深度学习与CV教程(9) | 典型CNN架构 (Alexnet,VGG,Googlenet,Resnet等)

2022-06-03 11:10 3535 查看

作者：韩信子@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/37
本文地址：http://www.showmeai.tech/article-detail/268
声明：版权所有，转载请联系平台与作者并注明出处
收藏ShowMeAI查看更多精彩内容

本系列为 斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记，对应的课程视频可以在这里查看。更多资料获取方式见文末。

引言

ShowMeAI在文章 深度学习与CV教程(5) | 卷积神经网络 中已经给大家介绍过CNN的核心结构组件，在本篇中，我们给大家介绍目前最广泛使用的典型卷积神经网络结构。包括经典结构（AlexNet、VGG、GoogLeNet、ResNet）和一些新的结构（Network in Network、Resnet改进、FractalNet、DenseNet等）

关于典型CNN结构的详细知识也可以参考ShowMeAI的 深度学习教程 | 吴恩达专项课程 · 全套笔记解读 中的文章 经典CNN网络实例详解

本篇重点

经典CNN架构 AlexNet

VGG

GoogLeNet

ResNet

其他结构

NIN（Network in Network）

ResNet改进

FractalNet

DenseNet

NAS

1.经典架构

1.1 AlexNet

首先回顾一下在数字识别领域有巨大成功的 LeNet-5，该网络结构为 [CONV-POOL-CONV-POOL-FC-FC]。卷积层使用 5 \times 5 的卷积核，步长为 1；池化层使用 2 \times 2 的区域，步长为 2；后面是全连接层。如下图所示：

而2012年的 AlexNet 是第一个在 ImageNet 大赛上夺冠的大型 CNN 网络，它的结构和 LeNet-5 很相似，只是层数变多了——[CONV1-MAX POOL1-NORM1-CONV2-MAX POOL2-NORM2-CONV3-CONV4-CONV5-Max POOL3-FC6-FC7-FC8]，共有5个卷积层、3个池化层、2个归一化层和三个全连接层。如下图所示：

输入：227 \times 227 \times 3 的图片；
CONV1：使用 96 个 11 \times 11 大小的卷积核，步长为 4，由于 (227-11)/4+1=55，所以输出的尺寸为 55 \times 55 \times 96，共有 96 \times 11 \times 11 \times 3 个参数；
POOL1：使用 $3 \times 3$的池化区域，步长为 2，由于 (55-3)/2+1=27，所以输出为 27 \times 27 \times 96，没有参数；
NORM1：归一化后仍然是 27 \times 27 \times 96；
CONV2：使用 256 个 5 \times 5 的卷积核，stride 1、pad 2 ，(27+2 \times 2-5)+1=27，所以输出为 27 \times 27 \times 256；
POOL2： 3 \times 3 filters，stride 2 ，(27-3)/2+1=13，所以输出为 13 \times 13 \times 256；
NORM2：13 \times 13 \times 256；
CONV3：384个 3 \times 3 filters，stride 1, pad 1，输出 [13 \times 13 \times 384]；
CONV4：384个 3 \times 3 filters，stride 1, pad 1，输出 [13 \times 13 \times 384]；
CONV5：256个 3 \times 3 filters，stride 1, pad 1，输出 [13 \times 13 \times 256]；
POOL3： 3 \times 3 filters，stride 2 输出为 [6 \times 6 \times 256]；
FC6：4096 个神经元，输出为 [4096]；
FC7：4096 个神经元，输出为 [4096]；
FC8：1000 个神经元，(class scores)输出为 [1000]。

之所以在上图中分成上下两个部分，是因为当时的GPU容量太小，只能用两个来完成。还有一些细节是：

第一次使用 ReLU 函数
使用归一化层(现在不常用了)
数据增强
dropout 0.5
batch size 128
SGD Momentum 0.9
学习率1e-2, 当验证准确率平稳时，手动减少 10
L2权重衰减是
```
5e-4
```
7 CNN ensemble：18.2\% \to 15.4\%

AlexNet夺得ImageNet大赛2012的冠军时，将正确率几乎提高了10%，2013年的冠军是ZFNet，和AlexNet使用相同的网络架构，只是对超参数进一步调优：

CONV1：将 (11x11 stride 4) 改为 (7x7 stride 2) ；
CONV3,4,5：不再使用384, 384, 256个滤波器，而是使用 512, 1024, 512个。

这样将错误率从 16.4\% 降低到 11.7\%

下面介绍14年的冠亚军GoogLeNet（22层网络）和VGG（19层网络）。

1.2 VGG

VGG 相对于AlexNet使用更小的卷积核，层数也更深。VGG有16层和19层两种。卷积核只使用 3 \times 3，步长为 1，pad为 1；池化区域 2 \times 2，步长为2。

那么为什么使用 $3 \times 3$的小卷积核呢？

多个卷积层堆叠时，第一层的感受野是 3 \times 3，第二层的感受野是 5 \times 5 （感受原图像），这样堆叠三层的有效感受野就变成 7 \times 7；
多个 3 \times 3 的卷基层比一个大尺寸卷积核的卷积层有更多的非线性（更多层的非线性函数），使得判决函数更加具有判决性；
多个 3 \times 3 的卷积层比一个大尺寸的卷积核有更少的参数，假设卷积层的输入和输出的特征图大小相同为 C，那么三个 3 \times 3 的卷积层参数个数$3 \times (3 \times 3 \times C \times C)=27C2$；一个 7 \times 7 的卷积层参数为 7 \times 7 \times C \times C=49C2；所以可以把三个 $3 \times 3$的filter看成是一个 7 \times 7 filter的分解（中间层有非线性的分解, 并且起到隐式正则化的作用）。

下面看一下VGG-16的参数和内存使用情况：

总内存占用：24M * 4 bytes，每张图片约96MB，加上反向传播需要乘以2；大多数内存都用在了前面几层卷积层；
总参数个数：138M，大多都在全连接层，全连接层的第一层就有100多M。

VGG网络的一些细节是：

14年ImageNet大赛分类第二名，定位第一名
训练过程和AlexNet很接近
不使用局部响应归一化
有16层和19层两种，19层效果稍微好一些，但是占用更多内存，16层应用的更广泛；
使用模型集成
FC7的特征泛化非常好，可以直接用到其他任务中

下面来看一下分类的第一名，GoogLeNet。

1.3 GoogLeNet

关于GoogLeNet/Inception的详细知识也可以参考ShowMeAI的深度学习教程 | 吴恩达专项课程 · 全套笔记解读中的文章经典CNN网络实例详解

先说明 GoogLeNet 的一些细节：

网络有22层，比VGG深一些
为了高效的计算，使用「Inception」模块
不使用全连接层
只有500万个参数，比 AlexNet 少了12倍
14年分类的冠军（6.7% top 5 error）

1) Inception Module

「Inception」模块是一种设计的比较好的局域网拓扑结构，然后将这些模块堆叠在一起。这种拓扑结构对来自前一层的输入，并行应用多种不同的滤波操作，比如 1 \times 1 卷积、 3 \times 3 卷积、 5 \times 5 卷积和 3 \times 3 池化。然后将所有滤波器的输出在深度上串联在一起。

如下图所示：

但是这种结构的一个问题是计算复杂度大大增加。如下图所示是一个网络参数计算示例：

输入为 28 \times 28 \times 256，而串联后的输出为 28 \times 28 \times 672。（假设每个滤波操作都通过零填充保持输入尺寸）并且运算花费也非常高：

[1x1 conv, 128] 28 \times 28 \times 128 \times 1 \times 1 \times 256 次乘法运算；
[3x3 conv, 192] 28 \times 28 \times 192 \times 3 \times 3 \times 256 次；
[5x5 conv, 96] 28 \times 28 \times 96 \times 5 \times 5 \times 256 次。

总计：854M次乘法运算。

由于池化操作会保持原输入的深度，所以网络的输出一定会增加深度。

解决办法是在进行卷积操作前添加一个「瓶颈层」，该层使用 1 \times 1 卷积，目的是保留原输入空间尺寸的同时，减小深度，只要卷积核的数量小于原输入的深度即可。

使用这种结构，同样的网络参数设置下，计算量会减少很多：

最终得到的输出为 28 \times 28 \times 480。此时总运算量为：

[1x1 conv, 64] 28 \times 28 \times 64 \times 1 \times 1 \times 256
[1x1 conv, 64] 28 \times 28 \times 64 \times 1 \times 1 \times 256
[1x1 conv, 128] 28 \times 28 \times 128 \times 1 \times 1 \times 256
[3x3 conv, 192] 28 \times 28 \times 192 \times 3 \times 3 \times 64
[5x5 conv, 96] 28 \times 28 \times 96 \times 5 \times 5 \times 64
[1x1 conv, 64] 28 \times 28 \times 64 \times 1 \times 1 \times 256

总计：358M。减少了一倍多。

2) 完整结构

Inception module堆叠成垂直结构，这里方便描述，将模型水平放置：

蓝色部分主干网：

Input - Conv 7x7+2(S) - MaxPool 3x3+2(S) - LocalRespNorm - Conv 1x1+1(V) - Conv 3x3+1(S) - LocalRespNorm - MaxPool 3x3+2(S)

含参数的层只有3个卷积层；

红色部分 Inception module 堆叠：并行层只算一层，所以一个 Inception module 只有两层，共有 9 个相同的模块 18 层。

绿色部分的输出：

AveragePool 7x7+1(V) - FC - Softmax - Output

所以含参数的层总计 3+18+1 = 22 层。

此外，橙色部分的层不计入总层数，这两块的结构都是：AveragePool 5x5+3(V) - Conv 1x1+1(S) - FC - FC - Softmax - Output。

原论文对于橙色辅助部分的描述是：

「该相对较浅的网络在此分类任务上的强大表现表明，网络中间层产生的特征应该是非常有区别性的。通过添加连接到这些中间层的辅助分类器，我们期望在分类器的较低阶段中鼓励区分，增加回传的梯度信号，并提供额外的正则化。这些辅助分类器采用较小的卷积核，置于第三和第六个Inception module的输出之上。在训练期间，它们的损失会加到折扣权重的网络总损失中（辅助分类的损失加权为0.3）。在预测时，这些辅助网络被丢弃。」