您的位置：首页 > 其它

CVPR 2016 | 商汤科技论文解析：物体分割

2016-09-25 20:54 393 查看

论文：Multi-scale Patch Aggregation（MPA）for
Simultaneous Detection and Segmentation

论文作者：Shu Liu, Xiaojuan Qi, Jianping Shi, Hong Zhang, Jiaya Jia

The Chinese University of Hong
Kong（香港中文大学），SenseTime Group Limited（商汤科技）

本文作者：石建萍

CVPR：IEEE Conference on Computer
Vision and Pattern Recognition，即 IEEE 国际计算机视觉与模式识别会议。该会议是计算机视觉和模式识别领域的顶级会议，在中国计算机学会推荐国际学术会议的排名中，CVPR 为人工智能领域的 A 类会议。

商汤科技在 CVPR 2016 上提交多篇论文，商汤科技的技术专家将在机器之心发布系列文章，对论文进行解读。本文为此系列文章的第三篇，点击

「CVPR 2016｜商汤科技论文解析：人脸检测中级联卷积神经网络的联合训练」，「CVPR
2016｜商汤科技论文解析：行为识别与定位」查看前两篇论文解析。

今天为大家介绍的是发表在 CVPR 2016 年的工作：「Multi-scale Patch Aggregation（MPA）for Simultaneous Detection and Segmentation」，该工作入选了 CVPR 2016 Oral 环节。

这篇文章主要解决的问题是 instance segmentation（也称为Simultaneous Detection and Segmentation）。Instance segmentation 最近逐渐成为一个新的热点问题。它要解决的问题是检测（Object Detection）和语义分割（Semantic Segmentation）综合的一个问题。比起检测，需要得到物体更精确的边界信息；比起语义分割，需要区分不同的物体个体。最近兴起的Microsoft
COCO的比赛中也有instance segmentation的设定（COCO 是 ImageNet 之后下一个引领潮流的比赛，其中instance segmentation 是组织者重点推广的一个方向）。

之前 instance segmentation 主要的解决方案是基于 low level 的方法得到分割的 proposal，再对每个proposal 分类［1，2，3］。主要框架都是基于 RCNN detection 的修改。这样的方案因为采用了额外的 proposal 提取的方案，不仅耗时，而且 proposal 的学习与之后的分类问题是割裂的，先期proposal
如果有问题后期物体的边界 mask 也无法被更正。

受 Deep Mask［4］工作的启发，物体 proposal 的学习可以通过卷积神经网络学到。我们希望能将这个能力拓展到 Instance Segmentation 的任务上，让同一个卷积神经网络同时完成 proposal 定位、类别判断、和边界更新的任务。

我们的网络结构如图 3 所示。输入图片经过一系列的卷积、relu、pooling 层得到较高层的 feature map（对应vgg的conv5_3）。之后在这层 feature map 后进行 multi-scale patch generation。Multi-scale patch generator 类似 RCNN 中的 ROI pooling 层。分别对 4 个预先定义的
scale 进行 sliding window 的选择，如图4所示，再对不同尺度的 patch 归一化到同样大小。只不过 ROI pooling 的每个 proposal 对应的是一个可能的物体，而我们这里的每个 patch 对应的是物体的一部分。这也是我们的方案和 Deep Mask 最主要的区别。进行这样设计的原因是，物体的大多数主体部分已经可以有语义的含义，而且可以避免物体理解的歧义，如「一个人的一部分是不是一个人」等类似问题，候选的具有语义信息的物体局部 patch 如图 2 所示。同时，通过不同部分的组合，可以综合多个局部的结果，使结果更加鲁棒。

在 multi-scale patch generator 之后，每一个 patch 会对应一个分割 mask 的预测分枝、和分类的预测分枝。对于一个 patch，如果在 object 对应 object 内，且 overlap 大于一定阈值的设为 object part的正样例。通过这样的方案，保证了同一个 patch 只对应预测同一个 object 的部分。最后训练的loss
由 segmentation loss 和 classification loss 加权得到。

测试阶段，在得到了每个 patch 的类别信息和分割信息之后，通过 patch aggregation 的方式综合patch 的结果得到最终 object 的 instance 类别和边界信息。我们的算法当时在 VOC 和 COCO 数据集的 instance segmentation 的任务上均获的了 state-of-the-art 的结果。

对比单纯的物体检测和语义分割算法，我们的 instance segmentation 在实际应用中也有非常多的用途。例如，在遥感测绘领域，可以对不同房屋进行区分且提供精确房屋边界的房屋提取算法；在医学图像领域，可以更好的实现区分不同细胞，并提供精确细胞边界的癌症细胞提取算法；在街景场景下，可以更好的区分当前驾驶的车前面不同的车及其准确边界等。

［1］B. Hariharan, P. A. Arbela ́ez, R. B. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV, pages 297–312, 2014

［2］J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, pages 3992– 4000, 2015.

［3］ B. Hariharan, P. A. Arbela ́ez, R. B. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained lo- calization. In CVPR, pages 447–456,
2015

［4］P. O. Pinheiro, R. Collobert, and P. Dolla ́r. Learning to segment object candidates. CoRR, abs/1506.06204, 2015.

个人简介：

石建萍，香港中文大学计算机视觉博士；曾获谷歌奖学金、HK
PHD Fellowship、MSRA Fellowship、HK-ACM Best Junior Research Award等荣誉；本科时期第一作者发表 CVPR Oral。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 深度学习物体分割

相关文章推荐

新的分享

章节导航