论文笔记《Multi-scale Orderless Pooling of Deep Convolutional Activation Features》
2016-05-15 17:46
429 查看
文章提出一种基于多尺度滑窗的CNN特征的编码方法。
相关链接:作者主页 项目主页
BOW:完全丢失图片的空间结构信息,orderless
对于场景分类问题,我们希望一个在小的region,空间结构globally ordered,比如region内的一个船它的结构是很强的约束,船帆必须在船身上方;在大的region,由于场景本身的布局差异,空间结构orderless,比如region内的两个船,它们互相的结构要求就很弱,A船可以在B船的上下左右任意方位。因此,需要基于CNN特征得到更加orderless的特征,使特征在准确刻画局部信息的同时,包容类内差异,更加invariant。
同时,基于一个observation:我们可以根据一个region判定整幅图的类别,如图b和f,对红色框的region提取CNN特征,可以预测出图片真实label。
为什么滑窗呢?因为如上图中可以看出,如果region取得稍有不对(蓝色框),根据patch CNN预测的图像label也会错的离谱。
从MIT Indoor67分类实验结果可以看到3个level的特征都起到作用。
1 Information
发表会议:ECCV2014相关链接:作者主页 项目主页
2 Motivation
Gloabl CNN:编码了图片的空间结构信息,对类内差异容忍度差,globally orderedBOW:完全丢失图片的空间结构信息,orderless
对于场景分类问题,我们希望一个在小的region,空间结构globally ordered,比如region内的一个船它的结构是很强的约束,船帆必须在船身上方;在大的region,由于场景本身的布局差异,空间结构orderless,比如region内的两个船,它们互相的结构要求就很弱,A船可以在B船的上下左右任意方位。因此,需要基于CNN特征得到更加orderless的特征,使特征在准确刻画局部信息的同时,包容类内差异,更加invariant。
同时,基于一个observation:我们可以根据一个region判定整幅图的类别,如图b和f,对红色框的region提取CNN特征,可以预测出图片真实label。
3 Method
本文提出multi-scale orderless pooling CNN,对原图分别做128×128和64×64的滑窗取patch,对每个patch提CNN特征,再用VLAD pooling将这些patch级别的CNN编码,得到一幅图的表示,最后将这2个滑窗尺度下的pooling结果和整幅图的CNN特征相连,得到图像最终的特征表示。为什么滑窗呢?因为如上图中可以看出,如果region取得稍有不对(蓝色框),根据patch CNN预测的图像label也会错的离谱。
4 Experiment
同时文章中还设计实验证明了MOP CNN特征的invariant:对图片人为施加形变后再提CNN特征分类,MOP CNN特征明显好于global CNN。从MIT Indoor67分类实验结果可以看到3个level的特征都起到作用。
相关文章推荐
- 按右键另存图片只能存BMP
- photoshop去除图片上的水印
- upload上传单张图片
- 图片引发的溢出危机(图)
- ASP编码必备的8条原则
- C#实现把彩色图片灰度化代码分享
- C#将图片和字节流互相转换并显示到页面上
- C#监控文件夹并自动给图片文件打水印的方法
- 纯CSS实现的当鼠标移上图片添加阴影效果代码
- 如何使用C#从word文档中提取图片
- C#实现打开画图的同时载入图片、最大化显示画图窗体的方法
- C#图片添加水印的实现代码
- XML指南——XML编码
- 随鼠标移动的图片或文字特效代码
- CSS 图片横向排列实现代码
- C#中字符串编码处理
- C#实现将Email地址转成图片显示的方法
- C#实现图片加相框的方法
- 超级经典一套鼠标控制左右滚动图片带自动翻滚
- 用css实现图片垂直居中的使用技巧