您的位置：首页 > 其它

Fusing time-of-flight depth and color for real-time segmentation and tracking

2014-06-18 11:06 513 查看

融合飞行时间深度与颜色信息的实时分割与跟踪

摘要:本文提出了一个改进的实时分割和跟踪目标的框架，通过融合深度和颜色信息。我们可以解决在分割和跟踪过程中存在的常见的问题，例如遮挡，快速移动，相似颜色的物体。我们提出的mean shift算法优于以前的算法，在复杂的场景中可以得到满意的效果。

1 引言

在机器视觉的应用中，分割和跟踪是重要的基础。这两个问题是已经被研究很多年了。为了理解图像，将单个目标从图像中分离出来是很重要的。Mean shift算法是一个流行的算法，被广泛地用来解决这两个问题。Meanshift算法比其他算法具有明显的优势，因为目标的数量不必事先知道，而且不需要利用任何特别的形状。

在[5]中，提出了一个结合边缘和颜色数据的分割技术框架，在RGB颜色空间应用mean shift跟踪目标。然而，这两种方法存在着在处理彩色图像的常见问题。当背景与目标有相似的颜色时，基于颜色的分割效果不是很好。基于颜色直方图的典型跟踪，在光照改变的情况下变现很差。对于上面算法已经做了很多改进，比如增加边缘信息，卡尔曼预测[6]，修改核函数，但是它们都必须依靠相同的颜色数据。因此，需要增加额外的信息用来改进算法，融合飞行时间技术的深度数据和颜色信息可以产生较好的效果。

几篇其它的论文从一个相机中得到融合了深度数据和其它数据的信息。[16]融合了高分辨率彩色图像和飞行时间数据。[10]和[11]用低分辨率的飞行时间数据来修正在高分辨率深度图像的不连续性（从立体相机中获取）。[7]融合飞行时间和颜色数据在一个视频序列中分割背景，尽管每秒仅处理大约10帧。[8]融合激光测距和颜色数据来训练一个机器人视觉系统。在[18]，从颜色数据提取出的本地表面特征与立体深度数据融合用来跟踪物体。在[17]中，两个独立的粒子滤波跟踪器（一个用颜色，另一个用飞行时间数据）被描述和在各种各样的视频序列进行比较。再一次，两种跟踪的方法不能实时跟踪。[17]总结每一个跟踪器在不同的环境下好的表现，最后将两者结合效果很好。

实际上，使用深度数据来弥补其他数据的噪声和人为干扰是很正常的。在标准数字相机的输出下，飞行时间深度数据自然地弥补了RGB数据的不足。例如，深度图像自动地将前景与背景分割开来，这在彩色图像中是很困难的。深度数据大部分不受光照改变的影响，然而用标准数字相机记录的RGB图像当光照改变时，颜色也会改变。另一方面，深度数据趋于噪声和包含人为干扰，需要被处理。

本文我们展示一个将颜色和深度数据的自然融合，可以使分割和跟踪效果得到很大提高。在第二部分，我们给出所使用数据的综述。在第三部分，我们研究传感器的融合，应用于mean shift分割算法。在第四部分，我们扩展这一想法用mean shift来实时跟踪物体。在第五部分，我们陈述我们的结论和未来的展望。

2 数据流

为了得到我们所需的数据，我们使用3DVSystems’ ZSense camera[9]，它采用了飞行时间技术，它可以同时获取RGB和深度数据。这给我们一张4通道的图像（每个通道为8位）。尽管这一数据用两个独立的摄像头，RGB图像已经被融入去匹配深度图像。因此，没有必要标定和匹配数据，正如在[16]。ZSense camera有几个分辨率和频率的选项，我们使用320X240的分辨率，以每秒30帧的速率采集。这个摄像机的距离范围为0.5—2.5m，的视角，深度精确到厘米，RGB数据比得上标准的网络相机。

3 Mean shift分割

尽管在图像处理中分割问题没有很好地定义，我们的目标是用健壮的方式去聚集独立物体的像素点，不管实际中独立的物体可能具有相同颜色。基于颜色的分割效果不好，在遮挡，或者当场景中的物体与背景具有相似的颜色时。我们需要引入额外的数据来解决该问题，因此深度数据自然地被使用于此。然而，盲目地增加深度数据不一定能产生好的效果。深度数据含有噪声，还可能包含人为因素，将使结果更糟。因此，我们必须明智地融合数据，例如何时使用深度数据，它应被给多少权重。通常深度数据应该得到更多权重，因为它不受光照影响，但是我们必须小心由于深度传感器的噪声。

3.1 提出的算法

在[5]中，在一个5D特征空间，mean shift步骤被反复迭代应用到每个点。这个特征空间包括颜色（转换为L*u*v颜色空间，为了更好地距离度量），2D晶格坐标。在每一次迭代中，窗口通过一个5D的mean shift矢量驱动来移动，直到收敛（当shifts小于一个给定的阈值）。为了修改这个算法，我们将深度数据作为额外的一维加入到这个特征空间中，产生聚类（和在颜色上相似，也和在3D 欧几里得空间相似）。因此，我们通过计算一个6D的mean shift矢量来拓展上面的方法。算法如下所示：

1.将RGB颜色模型转换为L*u*v颜色模型。

2.估计深度数据的噪声。我们使用一个简单的步骤类似于[13]。首先用平滑函数处理原始深度图像D，得到平滑图像S。然后让S与D做差运算，结果用来近似表示深度数据的噪声。

（1）

这个方法产生被高估的噪声矩阵W，但是实际应用中很好用。我们用双边滤波[15]作为一个滤波器来保存边缘当清除许多深度数据中不想要的人为干扰。（见Fig.1）

(a)depth image (b)filtered image (c)noise

Fig.1 使用双边滤波器的深度噪声估计
3.当计算6D的mean shift矢量时，从[5]中通过W来衡量原始的权重，另外增加一个额外的比例因子σ，以此来给更多全面的深度权重当它没有噪声时。

（2）
上式中是应用于mean shift矢量（XYRGBD）的每个组成部分的权重，应用于深度部分的权重。实际中，σ值范围为2-5时可以产生最好的结果。此方法中，在深度数据存在噪声的区域中，mean shift更多依赖颜色数据。

3.2 结果

这个方法比单一依靠颜色表现得更好。在一个快速运动的视频序列（见Fig.2），颜色数据被涂抹引起人的手臂不正确地与天花板聚集。增加一定的深度数据解决了这个问题。在闭合序列中（见Fig.3）人体的部分错误地与背景结合在了一起，然而增加深度解决这一问题。

（a）color (b)depth

(c)RGB segmentation (d)RGBD segmentation

Fig.2. 一个快速运动序列图像的分割。注意（c）中的手臂与背景合并在一起，由于有噪声的颜色数据。从（d）可以看出结果被很大提高。

（a）color (b)depth

(c)RGB segmentation (d)RGBD segmentatio

Fig.3. 局部闭合图像的分割。注意（c）中人的右臂和左肩错误地与背景结合在一起。从（d）可以看出结果被很大提高。

4 Mean shift跟踪

Comaniciuetu.al.[4]扩展了在[5]中实时稳定跟踪物体的思想。Mean shift步骤现在局部地应用到一个窗口，直到它汇聚在最可能的目标上。主要的思想是计算我们希望跟踪的目标的初始窗口的直方图，然后用mean shift找出往哪里移动这个窗口，使直方图的距离最小。虽然这个方案是健壮的，我们注意到它和其它基于颜色的方法具有相同的缺点。自然地，当目标与背景具有相似的颜色时，它不能很好地跟踪。例如，当背景中的墙面与人体皮肤的颜色相似时，跟踪效果不好。另一个方面，单纯依靠深度数据有它自己的问题。例如，当手离身体很近时，在深度窗口中没有多大变化，所以我们没有办法局部地跟踪手。为了取得最佳的结果，融合深度和RGB数据是无疑的希望。在接下来的部分，我们将描述提出的跟踪算法。

4.1 直方图

我们的跟踪用一个本地的mean shift过程，对于视频序列中的每帧，我们可以随意使用不同的数据。因此对于每个新的视频帧，我们能够使用不同的直方图，依靠在本地窗口中的几种措施。主要的挑战是决定何时和怎样融合深度和颜色信息。重要的两个原因如下：

1.在大多数情况下我们希望同时使用颜色和深度信息。然而，在一些情况下，我们可能想丢掉这些通道中的一个，因为它可能使结果更糟。例如，如果一个白色的球被扔在一面白色的墙前面，我们希望仅仅用深度数据。从另一方面说，当我们跟踪手时，手离身体很近，我们希望丢掉深度数据。因此我们需要一个好的规则来决定融合什么。

2.因为我们采用32位的图像，用一个bin为了每一个可能的color+depth将产生一个40亿bins的直方图。为了稳定性增加额外的本地描述符[14,1]将使bins的数量更大。在每个本地迭代中可能的颜色数量比较小，因此使用上面的逻辑，我们将得到一个非常稀疏的直方图。明显地，我们必须量化每个通道，但是也丢掉不需要的数据来节省空间。

我们开始用一个16x16x16x16 bins的RGBD直方图来运行算法，观察结果如下：

1.对于大多数序列，我们可以马上得到较好的结果。

2.当在目标窗口中的深度数据有噪声，我们得到较差的结果。从前面的部分我们能用权重图，为了决定是否目标窗口中的深度像素有噪声，仅仅依靠颜色数据。

3.当没有足够的信息用来跟踪，增加mean shift 的迭代次数可以弥补。我们注意到这适用在快速移动，RGB数据是模糊的，也适用在深度和RGB数据在窗口邻域有低的变化。在这种情况下，我们可以加倍bins的数量，使用其它健壮的图像描述符。

用上面的观察，我们现在能够应用一个健壮的算法，它以一种最佳的方式融合深度和颜色数据。

4.2 提出的算法

我们采用和[4]相似的框架，但是需要修改直方图。给出了一个目标模型的分布q和一个初始的位置。

1.转换为L*u*v颜色模型。

2.对深度数据进行双边滤波，计算权重矩阵W（eq.1）。

3.直方图通过颜色和深度数据来计算，量化以适合更少的bins。每个通道被分成16份，产生总共个可能的bins代替原来的。如果在权重图中深度像素的数量大于一个阈值，我们仅用一个 bin 的直方图，丢掉深度数据。在这个方法中，我们忽略深度数据的噪声。

4.计算p（处目标模型的分布）

（3）

K是Epanechnikov 核函数，h为窗口半径，{ }(i=1..... )是目标物体的像素位置，σ是Kronecker脉冲函数，b是一个函数，将直方图bin与一个给出的像素联系起来。P和q为目标区域颜色或深度特征的概率密度函数，因此我们想要发现目标位置y（概率密度是最相似的）。

5.估计两个分布的Bhattacharyyadistance(巴氏距离)[4]

（4）

此距离我们希望缩小来得到最佳的候选目标。

6.得到每个像素的权重

（5）

7.计算mean shift矢量

（6）

，用它来找到新的y位置。

8.重复step4—7,直到收敛（位移小于阈值）。

（a）在大多数情况下，融合RGB和深度数据是理想的，我们经过平均5次迭代可以收敛。（b）在窗口区域变化小的情况下，我们得到大的迭代数量，引起跟踪器丢失目标。为了弥补此影响，我们保持跟踪一个稍微大点的窗口（半径为l）在原来跟踪窗口的周围。如果RGB数据的变化在这个窗口中低，我们用一个SURF检测器[1]在本地窗口，重新计算直方图函数b。在这个情况下，bins的数量加倍，因为每个像素需要表明是否它包含一个SURF描述符。实际中，运行时间没有被很大程度地影响，因为这种情况不常发生。

4.3 处理极端的情况

我们想要我们的框架也可以处理极端的情况，例如在视频序列中关掉所有的灯，或人走出深度传感器的范围。在上一部分，我们描述了在包含噪声像素时怎样忽略深度数据。我们希望扩展这个思想处理其它的情况在直方图中哪里RGB或者深度数据将要被忽略。再次，我们保持跟踪大的窗口（半径为l）围绕着实际的跟踪窗口。在每次mean shift步骤迭代，我们检测这个窗口，计算每个数据类型的像素总和：

（7）

（8）

1.人走出摄像机范围的情况下，深度像素的大部分为零。因此，当接近零，仅仅RGB数据被用在直方图中。

2.在没灯的情况下，RGB图像的所有像素为零。因此，接近零，仅仅深度数据被用在直方图中。

当人接近深度传感器的范围限制而得到一些噪声像素，这个简单的启发式方法表现很好在双边滤波深度图像。滤波器清除噪声，实际中效果很好。（见Fig.4）

（a）depth image (b)filteredimage

Fig.4. 超出范围的深度数据

4.4 结果

我们检测我们的算法在一系列有挑战的序列，包括遮挡，领近前面，快速运动。在全部的情况下，我们的算法优于仅基于颜色的算法。我们展示视频序列的一小部分的结果，集中在不同环境下对手的跟踪和复杂的运动（见table1）。Fig.5展示成功地跟踪手，当它们完全地遮挡。Fig.6展示了一个例子，手离身体很近和卷起袖子，引起颜色跟踪的问题。额外的SURF描述符有时被加入直方图，为了成功地跟踪手。Fig.7展示一个典型序列的每帧迭代的数量。注意大多数帧需要很少的迭代，其它稳定的描述符被加入仅仅为了极端的情况，提高跟踪结果。

Table1.性能统计（1000帧视频序列）

Fig.5. 跟踪一个遮挡的序列。（a）初始的窗口故意设置左手离身体很近，使跟踪更困难当在深度图像中变化很小。（b）手遮挡了面部，全具有相似的颜色直方图。加入额外的深度信息，跟踪很好，但是仅依赖颜色，窗口保持在面部。（c）双手完全遮挡，但是跟踪很好，当深度信息加入后。（d）跟踪继续成功，甚至当接近身体（仅用深度将会失败）。

Fig.6. 跟踪一段卷起袖子的视频序列，产生一大片具有相似直方图的区域。上面的图像显示了颜色和深度都有大片相似的区域。移动整个胳膊区域，使用RGBD跟踪器引起了窗口的不稳定性。在这种情况下，mean shift导致许多次迭代。加入额外的SURF描述符产生角好的跟踪。

Fig.7. Mean shift每帧的迭代次数

5.结论

我们已经展示了怎样融合深度数据与颜色数据，使分割和跟踪具有挑战性的序列的效果提高。提出的算法在一个单核、2.4GHz的PC上以45fps运行，迭代的次数与原来的mean shift实现相似。

这个算法可以进一步提高，通过使用健壮的描述符，由SURF[1]产生，而不是仅由检测到的点，最后在Bhattacharyyadistance框架下融合它们。

总的来说，融合多种特征来进行目标的分割和跟踪是未来研究的趋势。

参考文献：

[1] Bay, H., Ess, A., Tuytelaars, T., Van Gool, L.: SURF: Speeded UpRobust Features.Computer Vision and Image Understanding 110(3), 346–359 (2008)

[2] Chen, Z., Husz, Z., Wallace, I., Wallace, A.: Video Object TrackingBased on a Chamfer Distance Transform. In: Proceedings of IEEE InternationalConference on Image Processing, pp. 357–360 (2007)

[3] Collins, T.: Mean-Shift Blob Tracking through Scale Space. In: CVPR,vol. 2,pp. 234–240 (2003)

[4] Comaniciu, D., Ramesh, V., Meer, P.: Real-Time Tracking of Non-RigidObjects using Mean Shift. In: CVPR, vol. 2, pp. 142–149 (2000)

[5] Comaniciu, D., Meer, P.: Mean Shift: A Robust Approach towards FeatureSpace Analysis. IEEE Trans. Pattern Analysis Machine Intell. 24(5), 603–619(2002)

[6] Comaniciu, D., Ramesh, V.: Mean Shift and Optimal Prediction forEfficient Object Tracking. In: International Conference on Image Processing,pp. 70–73 (2000)

[7] Crabb, R., Tracey, C., Puranik, A., Davis, J.: Real-time ForegroundSegmentation via Range and Color Imaging. In: CVPR Workshop on time-of-flightCamera Based Computer Vision (2008)

[8] Gould, S., Baumstarck, P., Quigley, M., Ng, A., Koller, D.:Integrating Visual and Range Data for Robotic Object Detection. In: M2SFA22008: Workshop on Multi-camera and Multimodal Sensor Fusion (2008)

[9] Gvili, R., Kaplan, A., Ofek, E., Yahav, G.: Depth Key. SPIE ElectronicImaging (2006)

[10] Hahne, U., Alexa, M.: Combining time-of-flight Depth and StereoImages without Accurate Extrinsic Calibration. In: Workshop on Dynamic 3DImaging (2007)

[11] Kuhnert, K., Stommel, M.: Fusion of stereo-camera and pmd-camera datafor real-time suited precise 3d environment reconstruction. In: IEEE/RSJInternational Conference on Intelligent Robots and Systems, pp. 4780–4785(2006)

[12] Leichter, I., LindenBaum, M., Rivlin, E.: A General Framework forCombining Visual Trackers - The Black Boxes Approach. International Journal ofComputer Vision 67(3), 343–363 (2006)

[13] Liu, C., Freeman, W., Szeliski, R., Bing Kang, S.: Noise Estimationfrom a Single Image. In: CVPR, vol. 1, pp. 901–908 (2006)

[14] Lowe, D.G.: Object recognition from local scale-invariant features.In: Proceedings of the International Conference on Computer Vision, pp.1150–1157 (1999)

[15] Paris, S., Kornprobst, P., Tumblin, J., Durand, F.: A GentleIntroduction to Bilateral Filtering and its Applications. ACM Siggraph CourseNotes (2008)

[16] Reulke, R.: Combination of Distance Data with High Resolution Images.In: IEVM Proceedings (2006)

[17] Sabeti, L., Parvizi, E., Wu, J.: Visual Tracking Using Color Camerasand time-of-flight Range Imaging Sensors. Journal of Multimedia 3(2), 28–36(2008)

[18] Tang, F., Harville, M., Tao, H., Robinson, I.N.: Fusion of Local Appearancewith Stereo Depth for Object Tracking. In: CVPR, pp. 142–149 (2008)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航