CVPR 2016 | 商汤科技论文解析:物体分割
2016-09-25 20:54
393 查看
论文:Multi-scale Patch Aggregation(MPA)for
Simultaneous Detection and Segmentation
论文作者:Shu Liu, Xiaojuan Qi, Jianping Shi, Hong Zhang, Jiaya Jia
The Chinese University of Hong
Kong(香港中文大学),SenseTime Group Limited(商汤科技)
本文作者:石建萍
CVPR:IEEE Conference on Computer
Vision and Pattern Recognition,即 IEEE 国际计算机视觉与模式识别会议。该会议是计算机视觉和模式识别领域的顶级会议,在中国计算机学会推荐国际学术会议的排名中,CVPR 为人工智能领域的 A 类会议。
商汤科技在 CVPR 2016 上提交多篇论文,商汤科技的技术专家将在机器之心发布系列文章,对论文进行解读。本文为此系列文章的第三篇,点击
「CVPR 2016|商汤科技论文解析:人脸检测中级联卷积神经网络的联合训练」,「CVPR
2016|商汤科技论文解析:行为识别与定位」查看前两篇论文解析。
今天为大家介绍的是发表在 CVPR 2016 年的工作:「Multi-scale Patch Aggregation(MPA)for Simultaneous Detection and Segmentation」,该工作入选了 CVPR 2016 Oral 环节。
这篇文章主要解决的问题是 instance segmentation(也称为Simultaneous Detection and Segmentation)。Instance segmentation 最近逐渐成为一个新的热点问题。它要解决的问题是检测(Object Detection)和语义分割(Semantic Segmentation)综合的一个问题。比起检测,需要得到物体更精确的边界信息;比起语义分割,需要区分不同的物体个体。最近兴起的Microsoft
COCO的比赛中也有instance segmentation的设定(COCO 是 ImageNet 之后下一个引领潮流的比赛,其中instance segmentation 是组织者重点推广的一个方向)。
之前 instance segmentation 主要的解决方案是基于 low level 的方法得到分割的 proposal,再对每个proposal 分类[1,2,3]。主要框架都是基于 RCNN detection 的修改。这样的方案因为采用了额外的 proposal 提取的方案,不仅耗时,而且 proposal 的学习与之后的分类问题是割裂的,先期proposal
如果有问题后期物体的边界 mask 也无法被更正。
受 Deep Mask[4]工作的启发,物体 proposal 的学习可以通过卷积神经网络学到。我们希望能将这个能力拓展到 Instance Segmentation 的任务上,让同一个卷积神经网络同时完成 proposal 定位、类别判断、和边界更新的任务。
我们的网络结构如图 3 所示。输入图片经过一系列的卷积、relu、pooling 层得到较高层的 feature map(对应vgg的conv5_3)。之后在这层 feature map 后进行 multi-scale patch generation。Multi-scale patch generator 类似 RCNN 中的 ROI pooling 层。分别对 4 个预先定义的
scale 进行 sliding window 的选择,如图4所示,再对不同尺度的 patch 归一化到同样大小。只不过 ROI pooling 的每个 proposal 对应的是一个可能的物体,而我们这里的每个 patch 对应的是物体的一部分。这也是我们的方案和 Deep Mask 最主要的区别。进行这样设计的原因是,物体的大多数主体部分已经可以有语义的含义,而且可以避免物体理解的歧义,如「一个人的一部分是不是一个人」等类似问题,候选的具有语义信息的物体局部 patch 如图 2 所示。同时,通过不同部分的组合,可以综合多个局部的结果,使结果更加鲁棒。
在 multi-scale patch generator 之后,每一个 patch 会对应一个分割 mask 的预测分枝、和分类的预测分枝。对于一个 patch,如果在 object 对应 object 内,且 overlap 大于一定阈值的设为 object part的正样例。通过这样的方案,保证了同一个 patch 只对应预测同一个 object 的部分。最后训练的loss
由 segmentation loss 和 classification loss 加权得到。
测试阶段,在得到了每个 patch 的类别信息和分割信息之后,通过 patch aggregation 的方式综合patch 的结果得到最终 object 的 instance 类别和边界信息。我们的算法当时在 VOC 和 COCO 数据集的 instance segmentation 的任务上均获的了 state-of-the-art 的结果。
对比单纯的物体检测和语义分割算法,我们的 instance segmentation 在实际应用中也有非常多的用途。例如,在遥感测绘领域,可以对不同房屋进行区分且提供精确房屋边界的房屋提取算法;在医学图像领域,可以更好的实现区分不同细胞,并提供精确细胞边界的癌症细胞提取算法;在街景场景下,可以更好的区分当前驾驶的车前面不同的车及其准确边界等。
[1]B. Hariharan, P. A. Arbela ́ez, R. B. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV, pages 297–312, 2014
[2]J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, pages 3992– 4000, 2015.
[3] B. Hariharan, P. A. Arbela ́ez, R. B. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained lo- calization. In CVPR, pages 447–456,
2015
[4]P. O. Pinheiro, R. Collobert, and P. Dolla ́r. Learning to segment object candidates. CoRR, abs/1506.06204, 2015.
个人简介:
石建萍,香港中文大学计算机视觉博士;曾获谷歌奖学金、HK
PHD Fellowship、MSRA Fellowship、HK-ACM Best Junior Research Award等荣誉;本科时期第一作者发表 CVPR Oral。
Simultaneous Detection and Segmentation
论文作者:Shu Liu, Xiaojuan Qi, Jianping Shi, Hong Zhang, Jiaya Jia
The Chinese University of Hong
Kong(香港中文大学),SenseTime Group Limited(商汤科技)
本文作者:石建萍
CVPR:IEEE Conference on Computer
Vision and Pattern Recognition,即 IEEE 国际计算机视觉与模式识别会议。该会议是计算机视觉和模式识别领域的顶级会议,在中国计算机学会推荐国际学术会议的排名中,CVPR 为人工智能领域的 A 类会议。
商汤科技在 CVPR 2016 上提交多篇论文,商汤科技的技术专家将在机器之心发布系列文章,对论文进行解读。本文为此系列文章的第三篇,点击
「CVPR 2016|商汤科技论文解析:人脸检测中级联卷积神经网络的联合训练」,「CVPR
2016|商汤科技论文解析:行为识别与定位」查看前两篇论文解析。
今天为大家介绍的是发表在 CVPR 2016 年的工作:「Multi-scale Patch Aggregation(MPA)for Simultaneous Detection and Segmentation」,该工作入选了 CVPR 2016 Oral 环节。
这篇文章主要解决的问题是 instance segmentation(也称为Simultaneous Detection and Segmentation)。Instance segmentation 最近逐渐成为一个新的热点问题。它要解决的问题是检测(Object Detection)和语义分割(Semantic Segmentation)综合的一个问题。比起检测,需要得到物体更精确的边界信息;比起语义分割,需要区分不同的物体个体。最近兴起的Microsoft
COCO的比赛中也有instance segmentation的设定(COCO 是 ImageNet 之后下一个引领潮流的比赛,其中instance segmentation 是组织者重点推广的一个方向)。
之前 instance segmentation 主要的解决方案是基于 low level 的方法得到分割的 proposal,再对每个proposal 分类[1,2,3]。主要框架都是基于 RCNN detection 的修改。这样的方案因为采用了额外的 proposal 提取的方案,不仅耗时,而且 proposal 的学习与之后的分类问题是割裂的,先期proposal
如果有问题后期物体的边界 mask 也无法被更正。
受 Deep Mask[4]工作的启发,物体 proposal 的学习可以通过卷积神经网络学到。我们希望能将这个能力拓展到 Instance Segmentation 的任务上,让同一个卷积神经网络同时完成 proposal 定位、类别判断、和边界更新的任务。
我们的网络结构如图 3 所示。输入图片经过一系列的卷积、relu、pooling 层得到较高层的 feature map(对应vgg的conv5_3)。之后在这层 feature map 后进行 multi-scale patch generation。Multi-scale patch generator 类似 RCNN 中的 ROI pooling 层。分别对 4 个预先定义的
scale 进行 sliding window 的选择,如图4所示,再对不同尺度的 patch 归一化到同样大小。只不过 ROI pooling 的每个 proposal 对应的是一个可能的物体,而我们这里的每个 patch 对应的是物体的一部分。这也是我们的方案和 Deep Mask 最主要的区别。进行这样设计的原因是,物体的大多数主体部分已经可以有语义的含义,而且可以避免物体理解的歧义,如「一个人的一部分是不是一个人」等类似问题,候选的具有语义信息的物体局部 patch 如图 2 所示。同时,通过不同部分的组合,可以综合多个局部的结果,使结果更加鲁棒。
在 multi-scale patch generator 之后,每一个 patch 会对应一个分割 mask 的预测分枝、和分类的预测分枝。对于一个 patch,如果在 object 对应 object 内,且 overlap 大于一定阈值的设为 object part的正样例。通过这样的方案,保证了同一个 patch 只对应预测同一个 object 的部分。最后训练的loss
由 segmentation loss 和 classification loss 加权得到。
测试阶段,在得到了每个 patch 的类别信息和分割信息之后,通过 patch aggregation 的方式综合patch 的结果得到最终 object 的 instance 类别和边界信息。我们的算法当时在 VOC 和 COCO 数据集的 instance segmentation 的任务上均获的了 state-of-the-art 的结果。
对比单纯的物体检测和语义分割算法,我们的 instance segmentation 在实际应用中也有非常多的用途。例如,在遥感测绘领域,可以对不同房屋进行区分且提供精确房屋边界的房屋提取算法;在医学图像领域,可以更好的实现区分不同细胞,并提供精确细胞边界的癌症细胞提取算法;在街景场景下,可以更好的区分当前驾驶的车前面不同的车及其准确边界等。
[1]B. Hariharan, P. A. Arbela ́ez, R. B. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV, pages 297–312, 2014
[2]J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, pages 3992– 4000, 2015.
[3] B. Hariharan, P. A. Arbela ́ez, R. B. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained lo- calization. In CVPR, pages 447–456,
2015
[4]P. O. Pinheiro, R. Collobert, and P. Dolla ́r. Learning to segment object candidates. CoRR, abs/1506.06204, 2015.
个人简介:
石建萍,香港中文大学计算机视觉博士;曾获谷歌奖学金、HK
PHD Fellowship、MSRA Fellowship、HK-ACM Best Junior Research Award等荣誉;本科时期第一作者发表 CVPR Oral。
相关文章推荐
- CVPR 2016|商汤科技论文解析:人脸检测中级联卷积神经网络的联合训练
- CVPR 2016|商汤科技论文解析:行为识别与定位
- 论文解析:基于深度卷积神经网络的城市遥感图像小物体语义分割及不确定性建模
- cvpr 2015 2016论文地址
- 2017cvpr 语义分割论文
- 2016 CVPR 所有论文
- 论文阅读:CVPR2016 Paper list
- CVPR2016 论文快讯:人脸专题
- CVPR 2016论文快讯:目标检测领域的新进展
- R-CNN论文翻译——用于精确物体定位和语义分割的丰富特征层次结构
- CVPR 2014 物体检测论文汇总
- CVPR 2014 物体检测论文汇总
- 视频物体分割--One-Shot Video Object Segmentation 2017年cvpr
- 论文阅读笔记:图像分割方法deeplab以及Hole算法解析(diliation)
- 论文阅读:《Structured Feature Learning for Pose Estimation》CVPR 2016
- CVPR 2016论文快讯:目标检测领域的新进展
- 论文阅读:CVPR2016 Paper list
- CVPR精彩论文解读:对当下主流CNN物体检测器的对比评测
- 直击CVPR2017:商汤科技打造技术盛宴23篇论文刮起中国风 By 机器之心2017年7月25日 10:14 近日,CVPR2017 在夏威夷如火如荼地进行,作为全球计算机视觉顶级会议,CVPR
- 论文阅读:《Convolutional Pose Machines》CVPR 2016