您的位置:首页 > 其它

CVPR 2016 | 商汤科技论文解析:物体分割

2016-09-25 20:54 393 查看
论文:Multi-scale Patch Aggregation(MPA)for
Simultaneous Detection and Segmentation

论文作者:Shu Liu, Xiaojuan Qi, Jianping Shi, Hong Zhang, Jiaya Jia

The Chinese University of Hong
Kong(香港中文大学),SenseTime Group Limited(商汤科技)

本文作者:石建萍

CVPR:IEEE Conference on Computer
Vision and Pattern Recognition,即 IEEE 国际计算机视觉与模式识别会议。该会议是计算机视觉和模式识别领域的顶级会议,在中国计算机学会推荐国际学术会议的排名中,CVPR 为人工智能领域的 A 类会议。

商汤科技在 CVPR 2016 上提交多篇论文,商汤科技的技术专家将在机器之心发布系列文章,对论文进行解读。本文为此系列文章的第三篇,点击

「CVPR 2016|商汤科技论文解析:人脸检测中级联卷积神经网络的联合训练」,「CVPR
2016|商汤科技论文解析:行为识别与定位」查看前两篇论文解析。

今天为大家介绍的是发表在 CVPR 2016 年的工作:「Multi-scale Patch Aggregation(MPA)for Simultaneous Detection and Segmentation」,该工作入选了 CVPR 2016 Oral 环节。

这篇文章主要解决的问题是 instance segmentation(也称为Simultaneous Detection and Segmentation)。Instance segmentation 最近逐渐成为一个新的热点问题。它要解决的问题是检测(Object Detection)和语义分割(Semantic Segmentation)综合的一个问题。比起检测,需要得到物体更精确的边界信息;比起语义分割,需要区分不同的物体个体。最近兴起的Microsoft
COCO的比赛中也有instance segmentation的设定(COCO 是 ImageNet 之后下一个引领潮流的比赛,其中instance segmentation 是组织者重点推广的一个方向)。

之前 instance segmentation 主要的解决方案是基于 low level 的方法得到分割的 proposal,再对每个proposal 分类[1,2,3]。主要框架都是基于 RCNN detection 的修改。这样的方案因为采用了额外的 proposal 提取的方案,不仅耗时,而且 proposal 的学习与之后的分类问题是割裂的,先期proposal
如果有问题后期物体的边界 mask 也无法被更正。

受 Deep Mask[4]工作的启发,物体 proposal 的学习可以通过卷积神经网络学到。我们希望能将这个能力拓展到 Instance Segmentation 的任务上,让同一个卷积神经网络同时完成 proposal 定位、类别判断、和边界更新的任务。







我们的网络结构如图 3 所示。输入图片经过一系列的卷积、relu、pooling 层得到较高层的 feature map(对应vgg的conv5_3)。之后在这层 feature map 后进行 multi-scale patch generation。Multi-scale patch generator 类似 RCNN 中的 ROI pooling 层。分别对 4 个预先定义的
scale 进行 sliding window 的选择,如图4所示,再对不同尺度的 patch 归一化到同样大小。只不过 ROI pooling 的每个 proposal 对应的是一个可能的物体,而我们这里的每个 patch 对应的是物体的一部分。这也是我们的方案和 Deep Mask 最主要的区别。进行这样设计的原因是,物体的大多数主体部分已经可以有语义的含义,而且可以避免物体理解的歧义,如「一个人的一部分是不是一个人」等类似问题,候选的具有语义信息的物体局部 patch 如图 2 所示。同时,通过不同部分的组合,可以综合多个局部的结果,使结果更加鲁棒。



在 multi-scale patch generator 之后,每一个 patch 会对应一个分割 mask 的预测分枝、和分类的预测分枝。对于一个 patch,如果在 object 对应 object 内,且 overlap 大于一定阈值的设为 object part的正样例。通过这样的方案,保证了同一个 patch 只对应预测同一个 object 的部分。最后训练的loss
由 segmentation loss 和 classification loss 加权得到。

测试阶段,在得到了每个 patch 的类别信息和分割信息之后,通过 patch aggregation 的方式综合patch 的结果得到最终 object 的 instance 类别和边界信息。我们的算法当时在 VOC 和 COCO 数据集的 instance segmentation 的任务上均获的了 state-of-the-art 的结果。

对比单纯的物体检测和语义分割算法,我们的 instance segmentation 在实际应用中也有非常多的用途。例如,在遥感测绘领域,可以对不同房屋进行区分且提供精确房屋边界的房屋提取算法;在医学图像领域,可以更好的实现区分不同细胞,并提供精确细胞边界的癌症细胞提取算法;在街景场景下,可以更好的区分当前驾驶的车前面不同的车及其准确边界等。

[1]B. Hariharan, P. A. Arbela ́ez, R. B. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV, pages 297–312, 2014

[2]J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, pages 3992– 4000, 2015.

[3] B. Hariharan, P. A. Arbela ́ez, R. B. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained lo- calization. In CVPR, pages 447–456,
2015

[4]P. O. Pinheiro, R. Collobert, and P. Dolla ́r. Learning to segment object candidates. CoRR, abs/1506.06204, 2015.

个人简介:

石建萍,香港中文大学计算机视觉博士;曾获谷歌奖学金、HK
PHD Fellowship、MSRA Fellowship、HK-ACM Best Junior Research Award等荣誉;本科时期第一作者发表 CVPR Oral。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息