您的位置：首页 > 移动开发 > Objective-C

论文阅读Soft Proposal Networks for weekly-supervised object localization

2018-03-17 14:54 911 查看

[/i]

论文：Soft Proposal Networks for Weakly Supervised Object Localization

1.摘要

弱监督的目标检测相对较为困难，因为只有image labels可以提供，在训练的过程中没有bounding boxes，本文是第一次将弱监督Object proposals集成在一个end-to-end的CNN里，文中定义了一个Soft proposal（SP）的模块，可以插入到CNN的任意一层，而且几乎是时间cost-free!（比RPN快10倍）称这个网络的名字叫soft proposal networks(SPNs)。基于深度feature maps逐渐迭代而进化的object proposal,然后再投影回feature map上，最后整体优化网络参数。SPN学习更好的object-centric fliters，发觉更多可区分的视觉特征，抑制背景的干扰，提高分类和定位的精度。

关于Object proposal的生成，从最开始的pipelined frameworks 到后来的unified frameworks，大大的提高了检测的速度。但是unified frameworks仍然不能用到弱监督目标检测中，因为弱监督训练中只存在image-level labels（即存不存在某个物体类别），为了解决这个问题，一些传统的方法就是基于多示例学习（MIL），从一个bag中（一个image 有很多proposals）选择一个实例（一个Proposal）来减小分类误差，然而这种piplined proposal and classfication 方法是次优的，两个步骤无法一起优化。

作者的启发来自与这篇文章，认为CNN可以被看做是object detectors，他们的feature map可以加起来生成Class Activation Map（CAM）。但是没有先验知识的目标区域在训练时，一般的CNN会被共存模式（co-occurrence）和噪声背景所误导。

这里的soft有三重含义：

对于每个receptive field只是预测出Objectness score，而不是提取出大量的物质的Proposal boxes

proposal 和 feature map的激活值以一种概率结合在一起，避免设定阈值硬性的砍掉

proposal随着CNN filters的更新而逐渐迭代

2.1 Object Proposal

传统的SS和EB的选择方式会选择出大量冗余的proposals。RPN使用CNN的特征进行选择，实现了end-to-end的方式，但是RPN的成功是建立在CNN的定位能力，训练出的好的模型依赖于精确地标注和定位，比如bounding boxes，所以这种方式会限制弱监督学习的能力。

本文的SPN只使用image-level annotations。所谓的Soft proposal是一种objectness confidence map而不是实际的Boxes。

查了一下什么是objectness map:

objectness measure(普通物体检测，即任意类别)相当于一个针对所有类别的目标检测，它量化了一副图像窗口中包含任何目标的可能性，展示了目标位置的分布

2.2 Soft proposal network

SPN的学习阶段分为两个过程，Soft Proposal Generation和Soft Proposal couping。前者通过在感受野的graph propagation，点亮潜在的object locations。后者集成feature map和生成的Proposal map ，通过迭代的Proposal生成，耦合，激活……，形成了若监督学习的端对端的过程。

2.2.1 Soft Proposal generation

定义proposal mapM∈RM∈R是一个由SP模块生成的objectness map

假如一个SPmodule插入到了第l层卷积层中，令Ul∈RK×N×NUl∈RK×N×N为第l层的feature map。在feature map每个位置（i,j）的K个通道上特征向量uli,j=Ul⋅,i,j∈RKui,jl=U⋅,i,jl∈RK，MM表示要生成的proposal map，处理的时候把它reshape成一个N2N2的向量，初始化为1N21N2。GG表示一个全连接的有向图，通过连接UlUl上的得每个点得到。D∈RN2,N2D∈RN2,N2是权重矩阵，其中DiN+j,pN+qDiN+j,pN+q表示点（i,j）到点(p,q)的边上的权重。

要计算权重矩阵有两个方面可以考虑：

4. 来自相同类别的物体的图像区域的特征具有相似性

5. 邻近区域具有语义相关性

这个Objectness confidence反应的是一种结合了特征差异（feature difference）和空间距离(spatial distance)的不相关性。D′iN+j,pN+q=||uli,j−ulpq||⋅L(i−p,j−q)DiN+j,pN+q′=||ui,jl−upql||⋅L(i−p,j−q)，其中L(a,b)=exp(−a2+b22ϵ)L(a,b)=exp(−a2+b22ϵ)。

random walk算法，一种数学统计模型，他由一连串的轨迹组成，其中每一次过程都是随机的。它能用来表示不规则的变动形式，如同一个人酒后乱步，所形成的随机过程记录。1905年，由卡尔·皮尔逊首次提出。

通常，我们可以假设随机漫步是以马尔可夫链或马可夫过程的形式出现，但是比较复杂的随机漫步则不一定以这种形式出现。在某些限制条件下，会出现一些比较特殊的模式，如醉汉走路（drunkard’s walk）或莱维飞行（Lévy flight）。

本文中使用了一个图传播算法random walk,该算法将那些和背景差异较大的点累加式的算出objectness confidence。每个节点接受来自于inbound directed edges的置信度，然后沿着outbound directed edges扩散出去。random walk过程可以看做是马尔科夫链。如上图所示，传播通过globally objectness flow，这样不仅能收集局部物体证据还能抑制噪音区域。M通过相乘权重矩阵D来更新M←D×MM←D×M上面的过程是特征向量中心性方法的一个变种，输出的是proposal map来显示特征图上每个点的objectness confidence。

eigenvctor centrality，特征向量中心性，国内资料较少，以下来自维基百科

Eigenvector centrality is a measure of the influence of a node in a network. It assigns relative scores to all nodes in the network based on the concept that connections to high-scoring nodes contribute more to the score of the node in question than equal connections to low-scoring nodes. Google’s PageRank is a variant of the Eigenvector centrality measure.[11] Another closely related centrality measure is Katz centrality.

由于权重矩阵D依赖于特征图U，而U依赖于第l层的卷积核W。上面的方程重写为M←D(Ul(Wl))×MM←D(Ul(Wl))×M，大约在10次迭代后，上式就趋于一个稳定状态，然后转换成2维就是proposal map。

2.2.2 soft proposal couping

耦合的特征V∈RN×NV∈RN×N是proposal map M和对应的特征图U的Hadamard prodect（element-wise product点积）Vk=Ulk(Wl)∘M,k=1,2,…,K,Vk=Ukl(Wl)∘M,k=1,2,…,K,。V前向的预测分数y,然后根据image labels预测出错误。

反传的过程中，梯度主要有M分担：Wl=Wl+ΔW(M)Wl=Wl+ΔW(M)ΔW(M)=−η∂E∂Wl(M)ΔW(M)=−η∂E∂Wl(M)

算法如下：