您的位置：首页 > Web前端

OverFeat Integrated Recognition, Localization and Detection using Convolutional Networks

2016-09-13 16:44 447 查看


操作	结果
输入训练集	（batchSize，3，231，231）
卷积层（96，3，11，11）stride（4，4）无pad	（batchSize，96，56，56）
最大池化（2，2）	（batchSize，96，28，28）
卷积层（256，96，5，5）stride（1，1）无pad	（batchSize，256，24，24）
最大池化（2，2）	（batchSize，256，12，12）
卷积层（512，256，3，3）stride（1，1）pad（1，1）	（batchSize，512，12，12）
卷积层（1024，512，3，3）stride（1，1）pad（1，1）	（batchSize，1024，12，12）
卷积层（1024，1024，3，3）stride（1，1）pad（1，1）	（batchSize，1024，12，12）
最大池化（2，2）	（batchSize，1024，6，6）
展开	（batchSize，1024×6×6 = 36864）
全连接层（36864，3072）	（batchSize，3072）
全连接层（3072，4096）	（batchSize，4096）
softmax层（4096，1000）	（batchSize，1000）


测试全连接层权重	转化的卷积层权重
（50176，3072）	（3072，1024，7，7）
（3072，4096）	（4096，3072，1，1）
（4096，1000）	（1000，4096，1，1）

多尺度分类

在

ImageNet Classification

论文中使用的4个角落和中心的5个区域以及水平翻转对应的区域共10个区域，采用的是单尺度，忽略了很多区域且有冗余计算。对一个固定尺度的图像在第五层特征图（例如20×20）的增强操作如下：

对一个固定尺度的单张图像，从第五层的未池化20×20特征图开始

每一个未池化特征图，在水平、垂直偏置分别为{0，1，2}的9种情况下做3×3的最大非重叠池化，得到9张池化后的6×6特征图

后3全连接层转化的卷积层有固定的5×5的输入大小，分别对9张池化后的特征图使用移动窗口的模式进行操作，得到1000个类别每个类别9张2×2特征图

将每个类别9张特征图组合成为1张6×6特征图，从而结果为3维（1000，6，6）

操作流程的1维展示

对于一个固定尺度的图像的水平翻转也做同样的操作。再对多个尺度的图像（本文一共有6个）进行操作，最终分类结果为：分别取一个类别中尺度和翻转结果中最大值（平均值）作为该类别的预测分数。

卷积网络具有内在的移动窗口模式

训练时保持全连接层不变，而在测试时将网络全连接层转化为1×1的卷积层得到一个全卷积网络，如果输入更大的图片，就可以将输出1×1的点扩展为一张类别预测图，该图中每一个点对应于输入的一个窗口。因为在测试时所有的层都是卷积层，那么网络就只有一系列的卷积、池化和阈值操作了。

移动窗口

2. 定位

将训练好的分类网络最后3层分类器替代为一个回归网络，训练它来预测物体每个位置和尺度的边界框，然后结合每个位置的回归结果和分类结果。

生成物体边界框的预测

在所有位置和尺度上同时训练共享卷积层的分类器和回归器（在训练好卷积层和分类器之后，只需要重新计算回归器）。每个位置上对某个类别的分类概率都是这个类别的物体在该位置上出现（不是完全包含）的置信分数。我们可以把每个边界边框都赋予一个置信分数。回归网络使用预测与实际边界的L2损失，回归输出是与类别有关的（有1000个版本，对每个类别都有一个回归结果）。

回归训练

回归网络的输入是第五层池化后的特征图，前两层为4096和1024个神经元，输出有4个神经元确定边界框的边界坐标。假设对于9个偏移情况中任意一个第五层池化后的特征图为256个6×7，第一层输入大小为5×5，卷积得到第一层4096个2×3，第二层则是全连接的，结果为1024个2×3，输出为4个2×3。

回归网络

合并预测结果

最终预测结果是合并具有最大类别分数的边界框，即通过累加定位的类别输出，这些类别输出是与预测边界框时使用的窗口有关的。

3. 检测

与定位不同的是在没有物体的使用需要预测一个背景类别，传统做法中负样本是随机选取的，而我们则是选取每张图片有意思的负样本。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

OverFeat Integrated Recognition, Localization and Detection using Convolutional Networks

1. 分类

2. 定位

3. 检测