您的位置:首页 > Web前端

CV | Feature Space Optimization for Semantic Video Segmentation - 基于特征空间优化的视频语义分割

2017-01-02 17:13 696 查看
前言:今天分享的这一篇文章是CVPR2016有关视频语义分割方向的,最近才开始学习语义分割相关的文献,有理解偏差的希望大家可以指正。

语义分割

在维基百科上面没有直接定义,但从字面上就可以理解,就是将图像或视频分割后,并为每一个包含的像素加上标签。下图是《基于特征空间优化的视频语义分割》的插图,可以很好地解释语义分割的含义,左列为输入视频截图,右列为语义分割结果。我们可以看到图中的每一个像素都被标以一种颜色,即对应一种分割类别,如车、行人、路等等。



摘要 / 创新点

从题目来看可以了解本文的主要贡献点在于特征空间的优化。视频的语义分割,相较图像的语义分割更加有难度,因为有时间轴的加入,由原来二维的分割问题拓展到三维空间。由于第三维度的加入,导致运动信息可能出现在三维时空中,因而找到帧与帧之间的对应像素点难度增大。通常,使用欧式空间的度量来确定像素点之间的对应关系,但因为运动信息的干扰,这个度量方式变得不再可靠。本文优化了像素点到欧式特征空间的映射方法,以最小化对应像素点间的距离。另一方面,本文还在优化的特征空间基础上应用稠密的CRF(条件随机场)以得到最终的语义分割结果。

模型

本文提出的分割模型由一组视频团(原文用的cliques)组成。视频团包含互相重叠的视频段(blocks),基于每个视频段定义稠密的CRF,然后依据时空平滑预测的规定进行语义分割。该模型示意图如下所示,可能看了图就好理解一些了。



图中的椭圆代表一个block,每个block有两个与之覆盖的block,基于每个全连接的block定义一个稠密CRF进行分割处理。

下面给出本文中CRF的定义。对于视频中的每个像素点p=( b, t, i ),b为block编号,t为其所在block的帧编号,i是像素点p在该帧中的索引编号。其色彩特征定义为Ip三维向量,坐标特征定义为sp。像素点集合定义为P。对于每一个像素点p,设Xp为一个随机变量,取值范围是L={ l1, l2, ..., lL },即视频中所包含的标签种类。X对应的随机域表示为一个Gibbs分布P(x|P),对应的能量项为E(x|P)定义如下:



其中



Z定义为分离函数(partition function),能量项E中的( p, q )域即为clique的一个单位区域。文中关于clique的定义不是很清晰,推断来看,应该就是连续几帧视频帧的联合区域。关于能量项的定义类似于最大流最小割中的能量方程,其中数据项和关联项都与之前使用过的方法类似。

最大流最小割的文章:最大流最小割

以下进行一些简单的描述。能量方程中的第一项即为数据项,指代将像素p赋值为xp标签的代价值。第二项为关联项,其定义使用高斯核计算:



其中w为权值,μ为兼容项,fp和fq为xp和xq的特征。关联性的定义为:



关联项主要衡量的是两个像素点所取标签情况对互相的影响,若关联性值大,即两个特征向量差异小,则所得出的代价值也小,也就是倾向于给这两个像素点赋予同一标签。有关fp特征向量的定义见下节。

特征空间优化

本文的主要贡献。作者通过在以上定义中增加规则项,以确保分割目标的形状,优化特征空间以减少对应像素点之间的欧式距离。其中,优化的目标特征为所有像素点的位置sp,处理过程中时间和颜色的特征维度保持不变,特征向量即( tp, Ip, sp )。

假设一个视频段block由T×N个像素点组成,T为帧数,N为每帧中的像素点,那么优化的目标方程定义为:



其中s为所有像素点的位置特征,s*为优化得到的特征。下面详细介绍Eu,Es和Et的定义。

数据项Eu

数据项的设计是为了去除视频的抖动问题。取视频段block的中间帧作为anchor帧,a=T/2为anchor帧的帧数,Pa为该帧所包含的像素集合。令sp’(式中为sp_bar)为Pa未优化的自然特征空间的坐标特征。定义如下:



其防抖动操作可以理解为找到中间帧作为所有坐标的参照系,确保找到的优化坐标特征不会与源坐标太远从而避免抖动。注意的是,该约束项虽然只对anchor帧进行处理,但由于其特殊位置,自然会影响到前后的坐标优化。

空间规则项Es

空间规则项保留色彩边界和检测到的轮廓信息。本文使用二阶项在四邻域图上进行约束:



其中Ni是像素( b, t, i )的邻域,wij主要保护边界信息,定义如下:



其中第一项基于颜色差异进行定义,第二项基于轮廓强度定义,cp为计算得到的轮廓信息,cp∈[ 0, 1 ],为1时说明检测为边界。若该像素点检测为边界,则wij权值变小,E的代价值变大,则所对比的两个位置特征很可能不匹配。

时间规则项Et

时间规则项约束的是在不同视频帧里的对应的像素点的位置相似性。定义如下:



K是对应像素对的集合,p和q位于不同的视频帧。这里对应的像素点对是使用光流和点轨迹生成的。

优化

定义好能量项之后,对公式(4)进行求解即可得到优化的坐标特征。本文指出使用的求解方法是biconjugate gradient stabilized method,这个方法还没有学习,文献链接文后贴上,方便后续研究。
文章链接:Bi-CGSTAB 查的时候才发现原来是92年的文章,引用次数4000+

推导和实验

有关公式(1)的求解过程使用的是Krahenbuhl提出的方法,不过不同于以往对全连接层模型的操作,这个方法在本文中改为对多个覆盖的团结构进行处理。该文章的链接同样附上:点击打开链接 当然如果不能翻墙,在我的资源页也能看见~

实验结果截图:



本文的方法是最后两个,都取得很不错的性能。



看图更加直观呀~最后一个是人为标定的参照结果,倒数第二列则为本文的结果,图中看来效果也是不错的。

题外话:这篇文章的学习笔记就暂时先写到这里了。。。本以为一点半可以写完的,结果写到五点多,看来时间预估的参数得调一调了= = 新年第一更,祝大家新年快乐!另外,这篇文章我还没看代码,所以到后面部分的时候理解欠佳,之后学习希望得到新的灵感,如果有不对的地方,希望大家指正。

另附这篇文章的资源链接:特征空间优化的视频语义分割

新的一年,大家一起努力学习吧!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐