您的位置：首页 > Web前端

CV | Feature Space Optimization for Semantic Video Segmentation - 基于特征空间优化的视频语义分割

2017-01-02 17:13 696 查看

前言：今天分享的这一篇文章是CVPR2016有关视频语义分割方向的，最近才开始学习语义分割相关的文献，有理解偏差的希望大家可以指正。

语义分割

在维基百科上面没有直接定义，但从字面上就可以理解，就是将图像或视频分割后，并为每一个包含的像素加上标签。下图是《基于特征空间优化的视频语义分割》的插图，可以很好地解释语义分割的含义，左列为输入视频截图，右列为语义分割结果。我们可以看到图中的每一个像素都被标以一种颜色，即对应一种分割类别，如车、行人、路等等。

摘要 / 创新点

从题目来看可以了解本文的主要贡献点在于特征空间的优化。视频的语义分割，相较图像的语义分割更加有难度，因为有时间轴的加入，由原来二维的分割问题拓展到三维空间。由于第三维度的加入，导致运动信息可能出现在三维时空中，因而找到帧与帧之间的对应像素点难度增大。通常，使用欧式空间的度量来确定像素点之间的对应关系，但因为运动信息的干扰，这个度量方式变得不再可靠。本文优化了像素点到欧式特征空间的映射方法，以最小化对应像素点间的距离。另一方面，本文还在优化的特征空间基础上应用稠密的CRF（条件随机场）以得到最终的语义分割结果。

模型

本文提出的分割模型由一组视频团(原文用的cliques)组成。视频团包含互相重叠的视频段(blocks)，基于每个视频段定义稠密的CRF，然后依据时空平滑预测的规定进行语义分割。该模型示意图如下所示，可能看了图就好理解一些了。

图中的椭圆代表一个block，每个block有两个与之覆盖的block，基于每个全连接的block定义一个稠密CRF进行分割处理。

下面给出本文中CRF的定义。对于视频中的每个像素点p=( b, t, i )，b为block编号，t为其所在block的帧编号，i是像素点p在该帧中的索引编号。其色彩特征定义为Ip三维向量，坐标特征定义为sp。像素点集合定义为P。对于每一个像素点p，设Xp为一个随机变量，取值范围是L={ l1, l2, ..., lL }，即视频中所包含的标签种类。X对应的随机域表示为一个Gibbs分布P(x|P)，对应的能量项为E(x|P)定义如下：

其中

Z定义为分离函数(partition function)，能量项E中的( p, q )域即为clique的一个单位区域。文中关于clique的定义不是很清晰，推断来看，应该就是连续几帧视频帧的联合区域。关于能量项的定义类似于最大流最小割中的能量方程，其中数据项和关联项都与之前使用过的方法类似。

最大流最小割的文章：最大流最小割

以下进行一些简单的描述。能量方程中的第一项即为数据项，指代将像素p赋值为xp标签的代价值。第二项为关联项，其定义使用高斯核计算：

其中w为权值，μ为兼容项，fp和fq为xp和xq的特征。关联性的定义为：

关联项主要衡量的是两个像素点所取标签情况对互相的影响，若关联性值大，即两个特征向量差异小，则所得出的代价值也小，也就是倾向于给这两个像素点赋予同一标签。有关fp特征向量的定义见下节。

特征空间优化

本文的主要贡献。作者通过在以上定义中增加规则项，以确保分割目标的形状，优化特征空间以减少对应像素点之间的欧式距离。其中，优化的目标特征为所有像素点的位置sp，处理过程中时间和颜色的特征维度保持不变，特征向量即( tp, Ip, sp )。

假设一个视频段block由T×N个像素点组成，T为帧数，N为每帧中的像素点，那么优化的目标方程定义为：

其中s为所有像素点的位置特征，s*为优化得到的特征。下面详细介绍Eu，Es和Et的定义。

数据项Eu

数据项的设计是为了去除视频的抖动问题。取视频段block的中间帧作为anchor帧，a=T/2为anchor帧的帧数，Pa为该帧所包含的像素集合。令sp’（式中为sp_bar）为Pa未优化的自然特征空间的坐标特征。定义如下：

其防抖动操作可以理解为找到中间帧作为所有坐标的参照系，确保找到的优化坐标特征不会与源坐标太远从而避免抖动。注意的是，该约束项虽然只对anchor帧进行处理，但由于其特殊位置，自然会影响到前后的坐标优化。

空间规则项Es

空间规则项保留色彩边界和检测到的轮廓信息。本文使用二阶项在四邻域图上进行约束：

其中Ni是像素( b, t, i )的邻域，wij主要保护边界信息，定义如下：

其中第一项基于颜色差异进行定义，第二项基于轮廓强度定义，cp为计算得到的轮廓信息，cp∈[ 0, 1 ]，为1时说明检测为边界。若该像素点检测为边界，则wij权值变小，E的代价值变大，则所对比的两个位置特征很可能不匹配。

时间规则项Et

时间规则项约束的是在不同视频帧里的对应的像素点的位置相似性。定义如下：

K是对应像素对的集合，p和q位于不同的视频帧。这里对应的像素点对是使用光流和点轨迹生成的。

优化

定义好能量项之后，对公式（4）进行求解即可得到优化的坐标特征。本文指出使用的求解方法是biconjugate gradient stabilized method，这个方法还没有学习，文献链接文后贴上，方便后续研究。
文章链接：Bi-CGSTAB 查的时候才发现原来是92年的文章，引用次数4000+

推导和实验

有关公式(1)的求解过程使用的是Krahenbuhl提出的方法，不过不同于以往对全连接层模型的操作，这个方法在本文中改为对多个覆盖的团结构进行处理。该文章的链接同样附上：点击打开链接当然如果不能翻墙，在我的资源页也能看见~

实验结果截图：

本文的方法是最后两个，都取得很不错的性能。

看图更加直观呀~最后一个是人为标定的参照结果，倒数第二列则为本文的结果，图中看来效果也是不错的。

题外话：这篇文章的学习笔记就暂时先写到这里了。。。本以为一点半可以写完的，结果写到五点多，看来时间预估的参数得调一调了= = 新年第一更，祝大家新年快乐！另外，这篇文章我还没看代码，所以到后面部分的时候理解欠佳，之后学习希望得到新的灵感，如果有不对的地方，希望大家指正。

另附这篇文章的资源链接：特征空间优化的视频语义分割

新的一年，大家一起努力学习吧！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航