您的位置：首页 > Web前端

论文阅读-《Learning Deep Features for Discriminative Localization》

2017-03-15 08:28 656 查看

收录于CVPR2016

关于全连接层不能保持spatial information的理解

相比全连接层，卷积层是一个spatial-operation，能够保持物体的空间信息(translation-variant)。比如一个物体原来在左上角，卷积之后的结果feature-map在左上角的激活值大。如果这个物体移动到右下角，那么卷积之后的feature-map同样会在右下角的激活值比较大。但是对于全连接层来说，它是将feature-map所有位置的信息综合之后输出，和物体的具体位置在哪里无关，比如一张图，人在左上角和右下角得到的fc层的输出应该是一致的（因为后面就接softmax分类了）

本文的contribution

Revisit the global average pooling,and sled light on how it explicitly enables the convolutional neural network to have remarkable localization ability despite being trained on image-level labels

行文思路

1 背景提出：卷积神经网络里面的每一个卷积单元其实都扮演着一个个object detector的角色，本身就带有能够定位物体的能力。但是这种能力在利用全连接层进行classification的时候就丢失了。因此，像那些全卷积的神经网络，比如googlenet，都在避免使用全连接层，转而使用global average pooling，这样的话不仅可以减少参数，防止过拟合，还可以建立feature map到category之间的关联。

2 作者想法：global average pooling(gap)不仅仅是一个regularizer，还能够将卷积层的定位能力一直保持到最后一层。即使这个网络是训练来进行分类的，我们也可以在feature map上获取那些对于分类具有区分性(discriminative)的区域。比如对于一张分类成自行车的图片来说，feature map上面在车轮子，车把这样地方的激活值就会比较大。而且这种网络的训练是end-to-end的，只需要训练classification的网络，我们就可以在forward的时候获取localization的信息。

3 技术方法：class activation map

上面这张图是作者实验中设计的网络结构，其实就是把原来的一个fc层替换成了GAP层，之后接一个fc层用来分类。首先可以训练一个分类的网络，然后利用训练得到的最后fc层的参数作为权重，对前面的conv层的feature map进行加权平均，最后就得到了class activation map。(w1,w2…,wn)是对gap之后的特征进行加权平均，其实也就是对gap之前的每一层feature map进行加权平均。比如说我们可以拿出负责预测澳大利亚犬的那组参数(w1,w2,,,wn)，对前面的最后一个卷积层的n张feature map进行加权，就可以得到澳大利亚犬的class activation map，这张map上激活值越大的地方，表示这个地方又有可能是属于澳大利亚犬，对这张class activation map求平均，其实就是这张图属于澳大利亚犬的概率，也就是图上的灰色圆对应的值。我们去找class activation map上的热区，其实就是在对物体进行定位。

上面这张图截取了top-5预测类别对应的CAM，可以看到，对于不同的类别，网络可以找到各自的具有区分性或者有信息量的区域，比如对于palace，更多的集中在正面的围墙建筑，对于dome的话，就集中在圆屋顶那个位置。同样，对于狗和鸡的分类，热区更多地集中在他们的头部。对于杠铃，则几种在两边的铁块上。

实验：为了验证class activation map的定位能力，作者做了一系列的实验。主要就是把经典的AlexNet,VggNet,GoogleNet紧接着最后一个卷积层的全连接层替换成GAP。首先作者验证了这种修改不会明显损害网络的分类性能。

上面进行各个网络的对比可以看到，GAP组的classification error会有降低，但是幅度不大。然后作者验证了CAM具有不错的定位能力

为了利用CAM进行定位，作者以CAM里面最大值的20%作为threshold对CAM进行分割，然后去最大的那个连通的component的外接框作为预测框。table2里面作者拿自己的方法和利用backpropogation的方法进行对比，整体更好。同时作者拿自己的方法和全监督的方法进行对比，就作者弱监督最好的结果和全监督里面AlexNet的结果比较接近。其中heuristic的选择bounding box的方法是，对于前两位概率高的分类类别，各选择一个tight和一个loose的预测框，对于第三名，选择一个loose的预测框，共5个。

上一行表示场景的图片以及这些场景中最经常出现的物体，对应的频率。下一行表示这些场景对应的CAM，以及热区属于各个物体的频率。可以看到对于餐厅，CAM在桌椅，吊灯以及盘子这些区域的激活值比较大，对于浴室，CAM在浴缸，水龙头这些地方的激活值比较高。

4 总结

神经网络里面不同层的卷积单元都扮演者视觉特征检测器的角色，从底层的视觉特征，比如边缘，角点；到高层的视觉模型，比如物体或者是场景。最后把这些东西综合起来进行分类。我们可以把最后一个卷积层看成是一个词典。每一张feature map对应检测输入中的一个单词，如果有，就在对应位置有高的激活值。后面的fc层其实就是利用这个词典进行分类。比如对于自行车分类器，他对于车轮，车把，车座这三个单词会赋予高的权值，对其他的单词权值很低，那么当他检测到输入图片的词向量在车轮，车把，车座这三个单词的置信度很高的时候，就会把这张图判断成自行车。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航