您的位置:首页 > 产品设计 > UI/UE

语义分割综述翻译 《A Review on Deep Learning Techniques Applied to Semantic Segmentation》

2019-01-04 09:21 821 查看

参考地址:http://www.cnblogs.com/Jie-Liang/archive/2017/06/29/6902375.html

文章:https://arxiv.org/pdf/1704.06857.pdf

1、迁移学习——从之前训练好的网络开始继续训练,然后在训练过程中微调模型权重值。好处:避免大量计算,迁移特征比随机初始化训练的特征要好。

方法:1、使用现有的网络架构或网络组件是常见的方法;2、合理选择微调的层,一般选较高的层微调,因为低层一般保留较通用的特征;3、合理的确定学习率,一般选取较小的值,因为一般认为提前训练的权重相对比较好,无需过度修改。

2、数据增强好处:加速收敛过程、作为正则项、防止过拟合、增加模型泛化性能

方法:最常见在数据空间上增强,通过旋转、平移、缩放、转换颜色空间、扭曲、剪裁等生成更多的样本来构建更大的数据集,防止过拟合以及对模型进行正则化,还可以对该数据集的各个类的大小进行平衡,甚至手工地产生对当前任务或应用场景更加具有代表性的新样本。尤其对小数据集有效。

3、常用数据集

(1)2D

PASCAL视觉物体分类数据集(PASCAL-VOC[27] (http://host.robots.ox.ac.uk/pascal/VOC/voc2012/) : 包括一个标注了的图像数据集和五个不同的竞赛:分类、检测、分割、动作分类、人物布局。分割的竞赛很有趣:他的目标是为测试集里的每幅图像的每个像素预测其所属的物体类别。有21个类,包括轮子、房子、动物以及其他的:飞机、自行车、船、公共汽车、轿车、摩托车、火车、瓶子、椅子、餐桌、盆栽、沙发、显示器(或电视)、鸟、猫、狗、马、绵羊、人。如果某像素不属于任何类,那么背景也会考虑作为其标签。该数据集被分为两个子集:训练集1464张图像以及验证集1449张图像。测试集在竞赛中是私密的。争议的说,这个数据集是目前最受欢迎的语义分割数据集,因此很多相关领域卓越的工作将其方法提交到该数据集的评估服务器上,在其测试集上测试其方法的性能。方法可以只用该数据集训练,也可以借助其他的信息。另外,其方法排行榜是公开的而且可以在线查询。

语义边界数据集SBD[30] (http://home.bharathh.info/home/sbd):是PASCAL数据集的扩展,提供VOC中未标注图像的语义分割标注。提供PASCAL VOC 2011 数据集中11355张数据集的标注,这些标注除了有每个物体的边界信息外,还有类别级别及实例级别的信息。由于这些图像是从完整的PASCAL VOC竞赛中得到的,而不仅仅是其中的分割数据集,故训练集与验证集的划分是不同的。实际上,SBD有着其独特的训练集与验证集的划分方式,即训练集8498张,验证集2857张。由于其训练数据的增多,深度学习实践中常常用SBD数据集来取代PASCAL VOC数据集。

 

Adobe肖像分割数据集 [26] (http://xiaoyongshen.me/webpage portrait/index.html) 包含从Flickr中收集的800x600的肖像照片,主要是来自手机前置摄像头。该数据集包含1500张训练图片和300张预留的测试图片,这些图片均完全被二值化标注为人或背景。图片被半自动化的标注:首先在每幅图片上运行一个人脸检测器,将图片变为600x800的分辨率,然后,使用Photoshop快速选择工具将人脸手工标注。这个数据集意义重大,因为其专门适用于人脸前景的分割问题。

 

密集标注的视频分割数据集(DAVIS[44,45](http://davischallenge.org/index.html):该竞赛的目标是视频中的物体的分割,这个数据集由50个高清晰度的序列组成,选出4219帧用于训练,2023张用于验证。序列中的帧的分辨率是变化的,但是均被降采样为480p的。给出了四个不同类别的像素级别的标注,分别是人、动物、车辆、物体。该数据集的另一个特点是每个序列均有至少一个目标前景物体。另外,该数据集特意地较少不同的大动作物体的数量。对于那些确实有多个前景物体的场景,该数据集为每个物体提供了单独的真实标注,以此来支持实例分割。

 

(2)2.5D——带深度信息

NYUDv2数据集[46](http://cs.nyu.edu/∼silberman/projects/indoor scene seg sup.html)包含1449张由微软Kinect设备捕获的室内的RGB-D图像。其给出密集的像素级别的标注(类别级别和实力级别的均有),训练集795张与测试集654张均有40个室内物体的类[60],该数据集由于其刻画室内场景而格外重要,使得它可以用于某种家庭机器人的训练任务。但是,它相对于其他数据集规模较小,限制了其在深度网络中的应用。

 

物体分割数据集(OSD[62](http://www.acin.tuwien.ac.at/?id=289)该数据集用来处理未知物体的分割问题,甚至是在部分遮挡的情况下进行处理。该数据集有111个实例,提供了深度信息与颜色信息,每张图均进行了像素级别的标注,以此来评估物体分割方法。但是,该数据集并没有区分各个类,使其退化为一个二值化的数据集,包含物体与非物体两个类。

 

4、方法

最成功用于语义分割的深度学习技术均来自同一个工作,即全卷积网络FCN ,利用了现存的CNN网络作为其模块之一来产生层次化的特征。作者将现存的知名的分类模型包括AlexNet、VGG-16、GoogLeNet和ResNet等转化为全卷积模型:将其全连接层均替换为卷积层,用小步幅卷积上采样(又称反卷积)得到输出空间映射而不是分类分数,从而来产生密集的像素级别的标签。

5、FCN成为了深度学习技术应用于语义分割问题的基石,但是仍有局限

  • 固有的空间不变性导致其没有考虑到有用的全局上下文信息;
  • 其并没有默认考虑对实例的辨识;
  • 其效率在高分辨率场景下还远达不到实时操作的能力,并且其不完全适合非结构性数据如3D点云,或者非结构化模型

6、现存方法简述

(1)解码器变体

选用一种分类网络如VGG-16,然后去掉其全连接层,产生低分辨率的图像表示或者特征映射,分割网络的这个部分通常被称之为编码器;学习如何解码或者将这些低分辨率的图像转为分割问题映射到像素级别的预测上去,分割网络的这部分被称为解码器编码器-解码器架构的不同方法的区别在于解码器的设计。

典型的例子:SegNet

(2)整合上下文信息

语义分割需要对多种空间尺度的信息予以整合,也需要对局部与全局信息进行平衡。一方面,细粒度的或者局部的信息对于提高像素级别的标注的正确率来说是关键的;另一方面,整合图像全局的上下文信息对于解决局部模糊性问题来说也是重要的。

(3)实例分割

SDS、DeepMask、SharpMask(堆叠在一起的不同的调优模块)

 

 

 

 

 

 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐