您的位置:首页 > 移动开发 > Objective-C

素描令牌:一个中层的学习轮廓和目标检测的表征Sketch Tokens: A Learned Mid-level Representation for Contour and Object Detec

2014-04-03 14:20 295 查看



素描令牌:一个中层的学习轮廓和目标检测的表征

Sketch Tokens: A Learned Mid-level

Representation for Contour and Object Detection

Lim,
J.J.Massachusetts Inst. of Technol., Cambridge, MA, USA
Zitnick,
C.L. ;
Dollar, P.

2013 IEEE Conference on Computer Vision and Pattern Recognition

摘要:

本文提出了一个针对中级特征的新方法来学习与检测基于本地轮廓的模型表示。本文所使用的特征,叫做素描令牌,以手绘图像轮廓的形式,学习使用有监督的中层信息。将人工产生的图像块聚类成素描令牌的形式,使用随机森林分类器有效地检测新的图像。本文的方法在自底向上和自顶向下的任务中都验证可行。本文的方法在自顶向下的任务中的轮廓检测中比其他类似的方法都快,在行人和物体探测这些自底向下的任务中也获得了很高的精度。这些收益是由于草图令牌提供给级别的功能的补充信息低,如梯度直方图。

 

1介绍

中级特征指的是在视觉识中,基于低级别像素信息与高级之间的过渡概念,如对象和场景级别的信息。有效的中级代表抽取了对不相关和噪声信号鲁棒性比较好的低水平像素信息,为之后的分类做准备。中水平特征可以手工设计,也可以有监督或无监督,他们可以作为自底向下任务(例如物体检测)和自顶向下任务(例如轮廓分类、从对象类信息的像素级分割)的基础。

边缘信息是一个早期流行的设计中级特征的方法。使用边缘信息的部分原因是可以很容易解释线条和草图。早期边缘探测器被用来找到更为复杂的形状,包括路口、直线和曲线,并被应用到对象识别、运动重建,跟踪3D形状恢复。

本文提出了一种基于学习和局部边缘探测的中级特征的新方法,并证明了该方法在自底向上和自顶向下的任务中都可行。本文所采取的特征,叫素描令牌,捕获局部边缘结构。素描令牌的类的范围从标准形状 (如直线和交叉点)到更丰富的结构(如曲线和并行线的集合)如图1所示。



图1 从手绘素描令牌的例子学到使用其均值的轮廓结构草图表示,注意草绘令牌的多样性

鉴于潜在的大量的局部边缘结构,我们必须选择由素描令牌表示的信息丰富的子集。与之前的人工定义类、高级监督或无监督信息的的方法不同,我们提出了一种新方法来定义使用有监督的中级信息的类,有监督的中级信息从人工在图像中标记的边缘中获得。因为他不是一个特定物体的类,所以这个数据很容易产生。图像块集中从手绘的素描中提取轮廓,并聚成一组令牌类。这样可以产生一套多样化、有代表性的素描令牌的类。我们通常利用几个几百个令牌,可捕获大多数常见的边缘的结构(图
1)。

我们的目标是在给定输入彩色图像的情况下,有效地预测生成的素描令牌。我们提出了一种数据驱动的方法,该方法通过给每一个带有令牌标签的小图像块分类,其中,令牌标签由很多低水平标签(包括面向梯度通道、颜色通道和自相似性通道)给出。从手绘轮廓的图像块聚类得出的令牌类分配结果为后面的训练提供了正确的标签。本文使用随即决策林解决这个大的多元类。这个方法可以在一秒内计算一张图片的像素令牌标签。

本文证明了这种中级素描令牌的在自顶向下和在由底至上任务中的优势,展示了自顶向下的结果,使用中级特征定位像素级轮廓,使用标准的数据集,本文的方法同时提高效率超过200倍,我们探讨行人检测和目标检测两个自下而上的任务,结果表明与之前在INRIA行人检测资料组里面的方法相比错误率降低了很多。此外,本文还展示了中层功能提供补充信息,在具有挑战性的PASCAL物体检测数据以梯度方向描述符的直方图集。

 

1.1近期的工作

许多最常用的梯度和边缘检测的特征都是人工设计的,例如:SIFT、HOG算法。大多数检测都是直接使用特征检测,有学习基于边缘的特征,具体类的边缘,使用目标水平的有监督,还有基于区域的表征。另一种方法就是通过深层网络直接从像素获得表征,无论是无监督的或者是使用物体级别的监督。这些方法学习的特征与浅层次的边缘滤波和深层次的更复杂的结构都很类似。本文的学习方法是学习基于轮廓的表征,不同的是我们引入了中层的监督来学习一套通用的素描令牌。

数据驱动的边缘检测也已经普及。 Dollar等提出边缘检测可以作为一个二元分类问题并用人工标记边缘训练一个二进制图像块边缘分类器,这种方法也有被扩展到用上下文和形状信息来细化的边缘映射。还有应用类似的方法来检测17独特的局部边缘结构,包括边缘,路口和角落。Ren和Bo学习通过稀疏编码和局部梯度量度来学习一个图像块的表征。相比之下,我们的工作旨在学习更丰富的局部代表,捕捉相当多的中层的图象信息。

从算法上来看,本文由肖顿等人在纹理基元的森林的工作中受到启发,利用决策林对密集图像块进行分类,关键的区别是,我们学习素描令牌,而非语义分割。虽然本文使用标准的低水平特征和一个典型的分类算法,本文的新颖之处在于素描令牌的定义和使用素描令牌有效地对局部图像结构进行编码。

2素描令牌

  在这部分主要介绍了怎么从手绘的素描获得令牌的分类和从异常图像中检测令牌。下面这部分将展示如何利用这些令牌获得轮廓和物体检测。首先介绍如何定义令牌类。

2.1定义素描令牌类

我们的目标是定义一组可以代表图像中的各种局部边缘结构的令牌类。这些包括:直线、T-路口、Y路口,角落,曲线,平行线等。提出了一个利用人工生成的图像令牌来产生这些类的方法,如图2.

假设我们有一组图像I,相应的代表手绘轮廓的二进制图像集合S,这些草图生成是通过问受试者:“将每个图像分成块,其中每一块代表图像中一个显著的事件” 。对数据集的生成详情可以在文献[20]中找到。

我们定义一组素描令牌类通过对从自二进制图像S提取的图像块s进行聚类,在本实验中,每个图像块sj从图像Si中提取35*35个像素。此外,只使用中心像素含标记轮廓的图像块(有大约两百万个这样的补丁在训练的集合[20])。黛西描述符[
36 ]计算包含在sj的二进制轮廓标签。聚类使用K均值算法,本实验中取K=150,示例聚类图如图1所示。素描令牌的种类从直线到更复杂的结构。



图2
(上面)示例图像和相应的手绘素描。 (下面)示例图像块及其相应的手绘轮廓

2.2检测素描令牌

给定一组素描令牌类,我们希望检测到他出现在彩色图像。本文使用一个学习分类器检测令牌。作为输入的特征用从训练图像I中提取色块x计算,如果图像块在手绘素描S的轮廓中心,地面实测类的标记是由上述的分类的结果所描述,反之图像块被标记为背景或是“无轮廓”类。输入特征从使用分类器后的彩色图像块x提取。分类器在后文有介绍。

 

2.2.1特征提取

本文从Dollar等的方法获得灵感进行特征提取,计算每个图像的多元特征通道,其中每个通道和输入图像具有相同的尺寸,并捕捉不同方面的信息。然后采用两种类型的特征,直接进入通道索引的特征和自相似特征。

通道由从彩色图像提取的图像块xi的颜色、梯度和梯度方向信息组成。三个颜色通道CIE- LUV彩色空间计算,我们计算几个在方向和尺度不同的梯度通道。三个梯度幅值通道使用了不同模糊量(我们使用高斯模糊δ=
0 ,1.5和5个像素)。另外,梯度幅值通道在δ= 0和δ= 1.5处根据方向创建额外的4个通道,总共八个幅度通道。这样,所有的通道都被δ= 1的高斯模糊化,在输出通道的像素作为分类器的第一类特征。

本文所使用的第二种特征是关于自相似性的。轮廓只有在强度和颜色,还有纹理的边缘才有。自相似性特征从部分图像块中获得,图像块中包含颜色、梯度相似的纹理。在m*m的网格上计算纹理信息,m=5时,在35*35的图像块上产生7*7个细胞。,对于通道k,网格细胞位置i,j,定义相似度特征fijk:

其中,sjk是网格细胞j在通道k的和。自相关特征如图3所示。



图3 自相似性特征的插图:L1到选定单元格的距离(黄色框),5*5细胞显示颜色和梯度级渠道。最初的图像块如左边所示。

因为fijk=-fjik,且fijk=0,所以每个通道的自相似性特征共有。当m=5时,每个通道共有300个特征。为了计算方便,整个图像的sjk能使用一个尺寸为细胞大小的滤波器卷积计算出来。

总之,我们使用3个颜色通道,3个梯度幅值通道,和8个梯度方向通道共计14个通道。对于35*35的图像块,共需要35*35*14=17150个通道特征,300*14=4200个自相关特征,共计21350维特征向量(学习模型只会用到其中很小的一部分特征)。使用优化的Dollar的在线代码,计算640*480输入图像仅仅只需要几分之一秒。

 

2.2.2分类

当选择一个标记图像块的素描令牌的时候,两个选择因素必须被考虑在内。首先在图像中的每个像素必须被标记,所以分类器必须是有效的。第二,由于他是一个对多类问题有效地方法,每个图像块潜在的类的数目有几百个。

随机森林是决策树的集合的平均结果,我们随机采样150000个轮廓图像块(每个令牌类1000个)和160000个无轮廓图像块(每个训练图像800个)来训练每棵树。基尼杂质测量用于从一个随机选择的√F/F子集选择每个分支节点特征和决策边界,叶子节点包括属于每个类的概率,通常都是稀疏的。我们使用25棵树的集合训练,直到每个叶子节点是纯净的,或是只包含五个以下的样本。尽管有些分支很深,树的深度的中位数是20。训练每棵树大概需要30分钟,这些树是并行训练的。所有的模型、特征和随机森林参数是使用BSD系统验证集。

为了理解决策树使用的特征,特征的频率图像如图4所示。注意在基于梯度尺度的图像块的中间大量使用了图像梯度。梯度方向也直观的显示了。不同素描令牌的可能性如图5所示。注意不同素描令牌的高选择性标记。



图4
被随即森林选中的样本特征的频率:(第一行)颜色通道,(第二行)梯度幅值通道,(第三行)选中的方向通道



图5
四个令牌的素描令牌的相应,注意每个素描令牌的高选择性

3轮廓检测

现在介绍使用自顶向下的方法来检测轮廓,素描令牌提供了一个图像块的局部边缘结构的估计。然而,轮廓检测只需要像素轮廓的二进制标记。实验结果表明,计算中层的素描令牌比预测底层的轮廓更精确、更高效。

用随即森林分类器预测一个图像块隶属于图像令牌或不属于的可能性。因为每个令牌有一个轮廓位于他的中心,可以使用令牌概率的总和计算轮廓在中心像素的概率。假设tij是图像块xi隶属于令牌j的概率,ti0是属于无轮廓类的概率,估计图像块中心包含轮廓的概率的计算公式如下:

当每个像素的轮廓的概率计算出来以后,一个标准的非最大抑制方案能找到一个轮廓的峰值响应。

3.1轮廓检测的结果

本文使用伯克利分割数据集和基准(BSDS500)测试轮廓检测的效果。BSDS500数据集包含200个训练,100年验证和200个测试图像。在图6和表1,将轮廓检测的方法和标准评价指标[1]相比较。结果表明本文的结果在本地的方法中是最好的,另外,在图6中,轮廓探测器显示了在查全率曲线的末尾撤销和精度的提高。定性的比较如图10所示。



表1在BSDS500上测试的轮廓检测结果:本文的结果在所有本地方法中是最好的。所示的方法最后两行完成了本地边缘响应的全局论证,结果性能更好。然而,我们的方法是240-280x,速度其他方法更快。



图6 轮廓检测的精度/召回曲线。素描令牌方法达到和gPb-owt-ucm和SCG类似的F-measure(ODS)的效果,还提高了在低召回和高召回的结果。这导致平均精度(AP)高。

 

当K=1聚类时,等价于只将边缘像素和没有边缘的分类,性能从ODS=0.73降低到ODS=0.68,这个结果和使用相似二元分类器的结果类似。当K=8时,足以实现合理的边缘检测结果(ODS=0.72)。

 

4目标检测

本文在两个目标识别数据集论证了中层素描标记特征,INRIA行人数据集[5]和2007年帕斯卡目标识别的数据集,结果描述如下。

4.1 INRIA行人

关于行人检测本文使用改进的DOLLAR等的方法实现,采用多元图像通道(如:颜色,梯度幅值,梯度方向)作为提高的探测器(利用类似的计算通道令牌)的特征。除了标准通道,本文添加了对应素描令牌概率索引的通道。与传统的通道获得低层次信息不同,我们的通道表示更复杂的可能存在场景中的边缘结构。

结果在表2和图7中展示。基线的方法使用10个特征通道(LUV+M+O),平均错误率(MR)
17.2%的,本文的方法使用了150个素描令牌加上“无轮廓”特征,平均错误率19.5%。加上素描令牌和10个低层次信息,平均错误率14.7%,比基线的方法错误率降低了很多。

各种算法的平均错误率和每幅图像的误判率的结果如图7所示。图像显示比之前公布的结果有很大的提高,之前的算法例如HOG和VJ表现明显更差。

素描令牌的数量对探测结果有很大的影响。在图8中,展示了使用不同数目的令牌类的结果。注意使用的令牌的个数越多,精度越高。



表2 结合素描令牌和INRIA的选择不同通道的精度。加入新的中层素描令牌特征使得精度显著提高。



图7
在INRIA行人数据集的平均错误率的log对数:使用本文的方法较之前的方法有了很大的提高。在90%的检测率上,我们在FPPI上比之前的算法有10*的减少。



图8
在INRIA的数据集使用不同数量的素描令牌的平均错误率的log对数。注意,使用更多的的不同边缘结构可以提高性能。

 

4.2.PASCAL
VOC 2007


本文最后的结果使用的是PASCAL VOC 2007数据集,该数据集包含20个真实的图片,这些图片标记有物体分类,如:人,狗,椅子等。我们使用在目标检测里应用很多的Felzenszwalb等的可变形的零件模型(DPM),DPMs使用梯度方向直方图(HOG)作为线性可分的支撑向量机的输入特征。本文加入素描令牌到HOG特征里,并训练DPMS.

与用于行人检测的技术不同,线性支撑向量机对归一化特征非常的敏感。本文使用类似于HOG描述子的归一化方法。素描令牌特征被分为4*4的网格细胞。每个细胞使用R-HOG技术在他的8领域做归一化处理。特别的,我们对每个细胞使用2*2的细胞及做4次归一化,将四个归一化值截断在0.2,并计算它们的平均值。最终,特征值按尺度缩放和HOG描述子有类似的范围。

DPMs使用根节点和完整的部分模型的实验结果分别如表3和表4所示。虽然单独的HOG特征优于素描令牌,几乎所有情况下的最高平均精度(AP)都是HOG特征和素描令牌的结合都是优于HOG特征的。实验证明,素描令牌给标准的HOG描述子提供了一个有价值的补充信息。对不同物体,支撑向量机分类器学习的权值如图9所示。注意物体结构和使用的令牌。



表3线性支撑向量机在PASCAL 2007上的结果:素描令牌+HOG在所有的类中都优于HOG(平均精度3.8)



表4 DPMs在PASCAL 2007上的结果:大部分素描令牌+HOG都优于HOG(平均精度2.5)



图 9
素描令牌的权值:画出了最高的5个素描令牌的乘以每个细胞的学习权值。注意素描令牌使用了很丰富的边缘结构。

5讨论

素描令牌提供了一个新颖的学习特征的方法。和前人生成中层特征的方法不同,我们使用有监督的中层信息。从人类目标中收集中层信息是一个很艰难的任务,因为这些信息是不可访问的。发现新的可观察的中层信息的集合对于特征学习是件很有意义的工作。图/地面或纹理属性可能是同样的信息。

 素描令牌为各种各样的任务提供了丰富的信息来源。本文中已经探索了几个,但是其他任务也可能从中受益。例如,对于许多图像编辑任务,轮廓检测可能是有用的。令牌通过适应类别的具体特征,也可以提高个别类的检测。

总之,文中描述了一种新的中层特征--素描令牌。令牌从带有地面真实轮廓的图像中学习,能够快速的计算。本文证明了使用令牌在几个轮廓和目标检测的数据集中使用的结果都是最好的。





图10在BSDS500上轮廓检测的例子,为了描述素描令牌,根据方程2定义边缘强度,应用平滑和标准的获得峰值边缘响应的非最大抑制。请注意我们的方法捕捉的细节,如第一排悉尼歌剧院的结构和第二行人类的腿。

 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐