您的位置:首页 > 其它

Early Hierarchical Contexts Learned by Convolutional Networks for Image Segmentation论文笔记

2017-12-13 18:33 585 查看

摘要

我们提出了一种基于卷积网络的前景分割方法。为了预测图像中像素的标签,模型将分层的上下文作为输入,其通过组合不同尺度上的多个上下文块来获得。短程上下文描述了本地细节,而远距离上下文则捕捉图像中的对象 - 场景关系。early早期意味着在学习任何可训练的层之前,我们将像素的上下文块组合成一个分层结构,例如,早期合并。相反,后期合并意味着组合稍后发生,例如当网络中的卷积特征提取器已经被学习时。我们发现,整个模型在我们的任务中共同学习不同规模的情境模式是至关重要的。实验表明,早期组合的表现要好于后期组合。在百度IDL(百度深度学习实验室)为最新的人物细分比赛而建立的数据集上,我们的方法以相当的优势击败了所有的竞争对手。定性结果也表明,所提出的方法已经接近实际应用的准备。

简介

最近研究表明,深度卷积神经网络在各种计算机视觉任务方面优于经典方法,例如图像分类和对象检测[1]。特别是Krizhevsky等[2]使用五个卷积阶和三个全连接层的深度神经网络在图像分类方面取得了重大突破。随着训练数据的增多,科学计算GPU的发展和drop-out的引入,可以训练这样一个拥有数千万参数的大型模型。

图像分割一直是计算机视觉社区的关键问题之一。对于图像中的每个像素,必须预测标签以指示该像素的所在类别。根据图像分割任务的具体特征,可以将图像分割任务分成不同的子类别。对象分割需要区分不同对象的像素,而语义分割(图像标记)则不需要[3]。在一些任务中,只有两个可用的类可以预测,例如前景分割[4]和虹膜分割[5],而在其他任务中,还有更多的例如场景标记[6],[7],[8 ]。

考虑到像素与其他像素之间的关系是一种广泛使用的图像标记方法。经典,人们经常采用基于图形的方法来捕捉这种方法关系。例如,He和Zemel[9]扩大了标准条件随机场算法进行对一个像素与其邻居之间的关系进行建模,即增强空间平滑。这可以被看作是考虑的小局部区域内每个像素的上下文。受限于计算的复杂性,这些复杂的基于图形的方法很难直接捕获图像中的长距离上下文信息。多尺度的分层标签可以解决这个问题[10]。但是,效果表现依然取决于在手动设计的分割层次的好坏。

一种自然简洁的构建像素的上下文分层方法是用不同的尺度呈现一系列原像素块。(如图1所示),可以自动进行学习上下文的模式来区分不同的类型的像素。不像经典的基于图的方法,卷积网络可以有效地处理这些原始像素块,不受分割层次的设计的影响。考虑到卷积网络的性能在图像分类和对象检测[1]的优秀表现,预计它们也可以有效地对像素进行分割。我们提出的方法如图1所示。我们首先密集地提取一系列图像的像素的三级上下文分级结构,之后,层次结构的每个级别分别被送入五阶段卷积网络,以此学习每一级别的特征。最后,一个三层感知器负责预测像素的标签。在三级层次结构,最小区域内的上下文描述局部的细节,而在最大的地区捕捉对象 - 场景关系。应该指出的是,最近Farabetet al. [11] 也将卷积网络应用于上下文块在三个尺度上。但是,他们没有在同一个像素的不同尺度上处理贴片作为从一开始的层次结构。相反,虽然他们的分类器(一个双层感知器)意识到分层上下文块之间的关系,它们的特征提取器

(三阶段卷积网络)不是。就这样,他们的学会的表示更多地致力于解决问题物体的尺度变化,而不是捕捉分层次的上下文模式,这是我们的动力

方案。此外,我们提出的方法是端对端的,以原始像素为输入并输出像素标签,而不需要任何复杂的后期处理。Farabet等人[11]表明,基于图形的后期处理方法可以显着提高其性能网络较少,有三个卷积阶段和一个二层感知。尽管如此,端对端的特征功能可以不受手动设计中受益复杂的后处理方法的影响,如[11]。

本文的其余部分安排如下。下一节将回顾更多相关的作品图像分割和卷积网络。之后,第三节将详细描述我们的方法,之前实验结果在第四节。最后,这篇文章将会是第五节总结。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  图像分割
相关文章推荐