您的位置：首页 > Web前端

论文笔记《Multi-scale Orderless Pooling of Deep Convolutional Activation Features》

2016-05-15 17:46 429 查看

文章提出一种基于多尺度滑窗的CNN特征的编码方法。

1 Information

发表会议：ECCV2014

相关链接：作者主页项目主页

2 Motivation

Gloabl CNN：编码了图片的空间结构信息，对类内差异容忍度差，globally ordered

BOW：完全丢失图片的空间结构信息，orderless

对于场景分类问题，我们希望一个在小的region，空间结构globally ordered，比如region内的一个船它的结构是很强的约束，船帆必须在船身上方；在大的region，由于场景本身的布局差异，空间结构orderless，比如region内的两个船，它们互相的结构要求就很弱，A船可以在B船的上下左右任意方位。因此，需要基于CNN特征得到更加orderless的特征，使特征在准确刻画局部信息的同时，包容类内差异，更加invariant。

同时，基于一个observation：我们可以根据一个region判定整幅图的类别，如图b和f，对红色框的region提取CNN特征，可以预测出图片真实label。

3 Method

本文提出multi-scale orderless pooling CNN，对原图分别做128×128和64×64的滑窗取patch，对每个patch提CNN特征，再用VLAD pooling将这些patch级别的CNN编码，得到一幅图的表示，最后将这2个滑窗尺度下的pooling结果和整幅图的CNN特征相连，得到图像最终的特征表示。

为什么滑窗呢？因为如上图中可以看出，如果region取得稍有不对（蓝色框），根据patch CNN预测的图像label也会错的离谱。

4 Experiment

同时文章中还设计实验证明了MOP CNN特征的invariant：对图片人为施加形变后再提CNN特征分类，MOP CNN特征明显好于global CNN。

从MIT Indoor67分类实验结果可以看到3个level的特征都起到作用。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： cnn 编码图片

相关文章推荐

新的分享

章节导航