您的位置：首页 > 其它

Face2Face: Real-time Face Capture and Reenactment of RGB Videos 论文翻译

2017-08-18 16:56 1036 查看

Face2Face：RGB视频的实时人脸捕获和重现

源论文标题：Face2Face: Real-time Face Capture and Reenactment of RGB Videos

源论文地址：http://www.graphics.stanford.edu/~niessner/papers/2016/1facetoface/thies2016face.pdf

[摘要]

我们提出了一种用于单目标视频序列（例如，Youtube视频）的实时面部重建的新颖方法。源序列也是单目视频流，用摄像头捕获。我们的目标是通过源角色为目标视频的面部表情动画化，并以逼真的方式重新渲染被操纵的输出视频。为此，我们首先通过“非刚性模型的捆绑”的方法，来解决视频中面部特征恢复的受限制问题。在软件运行时，我们使用密集的光度一致性度量（Dense Photometric Consistency measure）来跟踪源视频和目标视频的面部表情，然后通过源和目标之间的快速有效的形变传递实现表情复制。从目标视频中检索到最适合重塑的口腔位置，并弯曲它以产生准确的拟合。最后，我们成功地将合成的目标面部图像重新渲染在相应的视频流之上，使其无缝融合。我们在现场演示我们的方法，其中Youtube视频会实时重播。

1、介绍

近年来，基于传感器的实时无标记面部表情捕获，已经取得了令人印象深刻的成果。无论是基于RGB [8,6]还是RGB-D数据[31，10，21，4，16]。这些技术在视频游戏和电影中的虚拟CG头像变得越来越流行。现在可以在家里，通过许多VR设备和AR应用程序，运行这些面部捕获和跟踪算法。

在本文中，我们采用一种基于单目标RGB数据的密集无标记面部表情捕获方法，是目前最先进的方法。然而，我们不是将面部表情转移到虚拟CG角色，而是实时的面部重现。与以前的离线方法相比[5,11,13]，我们的目标是将一个RGB传感器捕获的源角色的面部表情，实时传输到目标演员上。目标序列可以是任何单目标视频；例如，从Youtube下载的具有面部表演的视频片段。我们的目标是以照片级别的逼真方式修改目标视频，让它几乎不会被注意到修改过。照片级别的逼真面部重塑是各种应用的基础。例如，在视频会议中，视频流可以被调整成翻译者的脸部动作，或者脸部视频可以匹配上外语的发音。

在我们的方法中，我们首先使用一种“全局非刚性模型的捆绑方法（global non-rigid modelbased bundling approach）”重建目标角色的外形特征，该模型基于处理的训练序列。由于该预处理在一组训练帧上执行，因此我们可以解决单目标重现的几何模糊问题。在运行时，我们基于之前统计的面部数据，采用分析方法，来跟踪源视频和目标视频中的人物。即使是依靠深度数据的实时跟踪方法，跟踪精度也能与现有技术的水平相当。为了将表情实时地从源传递给目标，我们提出了一种新颖的传递函数，可以直接在二维表达空间中有效地传递变形[27]。对于最终的图像合成，我们用转移的表情系数重新渲染目标的脸部，并将其与目标视频的背景进行合成，同时考虑了光照的情况。最后，我们介绍一种新的基于图像的口腔合成方法，通过从离线样本中检索和弯曲最佳匹配口形，来产生逼真的口腔图像。重要的是，我们保持了目标人物的嘴巴，而其它现有的方法，都是通过拷贝源人物的嘴巴区域或是牙齿到目标人物上[14,29]。那些方法都会导致不一致，图1显示了我们的方法。

我们提出了一种从源到目标视频的实时的高度逼真的面部表情传输。我们在现场设备中显示了结果，其中源视频由摄像头捕获，用于操纵目标的Youtube视频。另外，我们比较了最先进的方法，我们产生的视频质量和运行时方面都表现优异（我们是第一个实时RGB重现方法）。总之，我们
942d
的主要贡献是：

*全局非刚性模型的捆绑方法（dense, global non-rigid model-based bundling）

*在无约束的实时RGB视频中，精确跟踪，高精度的外观及照明估算。

*子空间形变的人脸表情传输方法。

*一种新颖的口腔合成方法。

2、相关工作

离线RGB视频的动作捕获

最近的离线动作捕获技术，通过将混合形状[15]或多线性面部[26]模型拟合到输入视频中，来逼近单目标重现问题。甚至通过反阴影的图像，提取几何精细尺度的表面细节。Ichim等[17]仅仅从输入去构建一个个性化的面部装置。他们从专门捕获的视频中执行头部的结构化运动重建，它们适合于身份和表达模型。从训练序列中学习特定于人的特征。Suwajanakorn等[28]从图像集合中学习特征模型，并基于模型到图像的流场（flow field）来跟踪面部动作。 Shi et al [26]基于一组选择的关键帧的全局能量优化实现令人印象深刻的结果。我们基于模型的捆绑方法来恢复人物特征与他们的方法相似。但是我们使用了强大和密集的全局光照对齐，并且我们执行了GPU上的高效数据并行优化策略。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航