您的位置：首页 > 其它

论文笔记《Superparsing: Scalable Nonparametric Image Parsing with Superpixels》

2015-09-20 22:35 567 查看

【论文信息】

《Superparsing: Scalable Nonparametric Image Parsing with Superpixels》

IJCV 2013

superpixel-level，fully supervised，non parametric method

这篇文章是CVPR 2013的《Finding Things: Image Parsing with Regions and Per-Exemplar Detectors》和CVPR 2014的《Scene Parsing with Object Instances and Occlusion Ordering》的主要参考文章，而现有的代码是这两篇文章的。这篇也是Nonparametric的代表性工作之一，在很多其他论文中都有提到。为了熟悉现有代码框架，了解Nonparametric这类方法的主要思路，所以精读了这篇文章。

【方法简介】

这里Nonparametric方法主要是lazy learning的思想（仅仅保存training set，当test image 到达时，才进行决策，并不是事先就有决策模型的。）

我们现在有一个training set，要得到一幅query(test image)的分割结果，主要步骤如下：

Step 1：在training set中为这个query找相似的图，得到一个retrieval set。是通过对这些图片提取global feature（Spatial pyramid，Gist，Color histogram），然后计算特征相似度来实现的。这里的特征是需要大体反应图片内容和结构的。

Step 2：把query和retrieval set中的图都分割成superpixel级别，并为每一个superpixel计算特征，这里的特征要从各个方面（color，texture，shape…）来挖掘该superpixel的特性，因为本文方法的分割就是基于superpixel这些特征做的。接下来的目标就是对这些superpixel进行分类。

Step 3：为query中的每个superpixel根据每个特征在retrieval set的superpixels中寻找相似的superpixels，也就是在该特征空间上的nearest neighbor，然后根据这些neighbor计算该query superpixel属于每个label的likelihood score（这个likelihood score的计算方法是在文章中定义的），属于哪个label的score值最大，那么该query superpixel就可以标为属于这个label。到了这一步，可以得到一个分割结果，是local superpixel labeling。

Step 4：对local labeling做优化：在一个query image中，当前superpixel的label和相邻的superpixels的label存在一定的关联关系，用MRF对这样的关系建模，得到global superpixel labeling结果。

Step 5：让semantic分割结果和geometric分割结果互相修正，得到更加准确的分割结果。

【细节记录】

1, local superpixel labeling

主要思想是根据一些特征，在retrival set中找到和query中当前我们要预测的superpixel相似的superpixels，看这些superpixels都属于什么label，然后得到prediction。

论文中对每个superpixel计算它属于某个类别c的log likelihood ratio，定义如下：

fik是superpixel si的第k个特征；

Nik是在feature k的标准下，在retrieval set中和si相似的superpixels；

D是training set中所有的superpixels；

这个L反映了query中的superpixel si 属于label c的可能性，主要是通过统计和si相似的那些superpixels的label数据得出的，si对哪个c的L值大，si的label就是这个c。

2, global superpixel labeling（MRF smooth）

前面local superpixel labeling的方法是对query中每个单独的superpixel计算per-class likelihood ratio然后判断该superpixel的label。而我们会发现，一个superpixel的label会受到邻近的其他superpixel的label的约束，比如，如果当前superpixel周围的label都是“sky”，那么这个superpixel的类别不太可能是“water”，所以利用这样的信息是有利于提高精度的。

论文中选择MRF来编码这样的约束，将这个问题建模为对J(c)的最小化问题，然后通过inference的方法求解：

A是指在query image中和superpixel si相邻的superpixel set；

wi是si的权重，是si在图片中占的面积百分比；

这个J是一个MRF能量函数，最小化这个J就能得到当前query image的最优分割结果。

公式(4)中，L外面这一层是sigmod函数，是为了让ratio最大的那个值最后能脱颖而出，对能量函数产生较大的影响。

公式(5)中的E是“produce very intuitive penalties”，下图中，(d)列中的分割边缘较杂乱，总体能量较高，经过这一步的MRF smooth，对高能量的分割边缘做了处理(惩罚)，得到总体能量较低的分割结果。

这里所说的“能量”是指来自graph cut的，用来衡量cut结果的好坏，分割边缘的能量值越低越好。细节暂未了解。

下图中从蓝色到红色的颜色条代表能量值从低到高，在(d)(f)列的图中，红色边缘能量值高。

3, join semantic and geometric

geometric类别是固定的3个：sky,horizontal, vertical

假设一个semantic类别能对应一个geometric类别，那么对于一幅图，用这两种类别标准下的分割结果互相修正，可以互相促进提升精度，所谓“双管齐下”。效果图如下：

Joint的分割，目标函数如下：

要得到最优的分割结果，就是要最小化这个H(c,g)，论文使用“alpha/beta-swap algorithm”做inference。

J(c)是semantic的结果，J(g)是geometric的结果，J(g)没有像J(c)那样用nearest-neighbor classifies的思想，去定义log likelihood ratio，由于geometric的类别只有3个，类别数量少且是确定的，所以使用boosted decision tree(BDT)即可得到一个likelihood ratio score，MRF smooth的过程和J(c)是一样的。

phi(ci,gi)的值是0或1，ci在gi中则为0，否则为1。所以(6)式的第三项可以看作是一个惩罚，对于一个superpixel si，我们期望它的ci在gi中，比如building在horizontal中，这样就可以更确定这个si属于building且属于horizontal；如果它的ci不在gi中，比如si的ci=building而gi=sky，那说明ci和gi至少有一个是错误的分类结果，所以要对目标函数加上惩罚。

【实验设计】

1，在SIFT Flow和LMSun两个数据集上，证实本文所做的改进是合理的：从local labeling到MRF(就是加上MRF smooth，global labeling)到Joint(综合考虑semantic和geometric)；用这个结果也和3种start-of-the-art的方法比较

2，选择用来做retrieval set的global feature

3，找合适的retrieval set size，因为这里在实验性能和程序计算量之间是有trade off的

4，对比nearest neighbor和boosted decision tree，在semantic和geometric的类别上

【总结】

优点

1，scalable，训练集可扩展，不用训练model，方法灵活；

2，利用了semantic类别和geometric类别之间的联系，提高精度；

3，用retrieval set限制了该query image中可能出现的label的范围，有利于提高精度。

4，考虑把数据集分为indoor和outdoor，分别做实验看分割结果，并认为indoor场景更复杂，分割难度更大，并提供了一个baseline

5，考虑把semantic类别分为两种，“stuff”(sky,road,trees), “things”(people,cars)，前者往往没有固定的形状，一般是一个region；后者会有大致的形状信息可以利用，也常常是object detection的目标。本文方法在stuff的类别上表现较差。

缺点

1，对于大数据集，每次要得到retrieval set都耗费大量时间去检索；

2，retrieval set的大小在performance和accuracy之间是trade off的；

3，一定程度上简化了superpixel和superpixel之间复杂的关系，会影响精度；

4，MRF smooth会有over-smoothing的问题，反而降低精度。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航