您的位置:首页 > 其它

Face2Face: Real-time Face Capture and Reenactment of RGB Videos 论文翻译

2017-08-18 16:56 1036 查看
Face2Face:RGB视频的实时人脸捕获和重现

源论文标题:Face2Face: Real-time Face Capture and Reenactment of RGB Videos

源论文地址:http://www.graphics.stanford.edu/~niessner/papers/2016/1facetoface/thies2016face.pdf

[摘要]

我们提出了一种用于单目标视频序列(例如,Youtube视频)的实时面部重建的新颖方法。源序列也是单目视频流,用摄像头捕获。我们的目标是通过源角色为目标视频的面部表情动画化,并以逼真的方式重新渲染被操纵的输出视频。为此,我们首先通过“非刚性模型的捆绑”的方法,来解决视频中面部特征恢复的受限制问题。在软件运行时,我们使用密集的光度一致性度量(Dense Photometric Consistency measure)来跟踪源视频和目标视频的面部表情,然后通过源和目标之间的快速有效的形变传递实现表情复制。从目标视频中检索到最适合重塑的口腔位置,并弯曲它以产生准确的拟合。最后,我们成功地将合成的目标面部图像重新渲染在相应的视频流之上,使其无缝融合。我们在现场演示我们的方法,其中Youtube视频会实时重播。

1、介绍

近年来,基于传感器的实时无标记面部表情捕获,已经取得了令人印象深刻的成果。无论是基于RGB [8,6]还是RGB-D数据[31,10,21,4,16]。 这些技术在视频游戏和电影中的虚拟CG头像变得越来越流行。现在可以在家里,通过许多VR设备和AR应用程序,运行这些面部捕获和跟踪算法。

在本文中,我们采用一种基于单目标RGB数据的密集无标记面部表情捕获方法,是目前最先进的方法。然而,我们不是将面部表情转移到虚拟CG角色,而是实时的面部重现。与以前的离线方法相比[5,11,13],我们的目标是将一个RGB传感器捕获的源角色的面部表情,实时传输到目标演员上。目标序列可以是任何单目标视频;例如,从Youtube下载的具有面部表演的视频片段。我们的目标是以照片级别的逼真方式修改目标视频,让它几乎不会被注意到修改过。照片级别的逼真面部重塑是各种应用的基础。例如,在视频会议中,视频流可以被调整成翻译者的脸部动作,或者脸部视频可以匹配上外语的发音。

在我们的方法中,我们首先使用一种“全局非刚性模型的捆绑方法(global non-rigid modelbased bundling approach)”重建目标角色的外形特征,该模型基于处理的训练序列。由于该预处理在一组训练帧上执行,因此我们可以解决单目标重现的几何模糊问题。在运行时,我们基于之前统计的面部数据,采用分析方法,来跟踪源视频和目标视频中的人物。即使是依靠深度数据的实时跟踪方法,跟踪精度也能与现有技术的水平相当。为了将表情实时地从源传递给目标,我们提出了一种新颖的传递函数,可以直接在二维表达空间中有效地传递变形[27]。对于最终的图像合成,我们用转移的表情系数重新渲染目标的脸部,并将其与目标视频的背景进行合成,同时考虑了光照的情况。最后,我们介绍一种新的基于图像的口腔合成方法,通过从离线样本中检索和弯曲最佳匹配口形,来产生逼真的口腔图像。重要的是,我们保持了目标人物的嘴巴,而其它现有的方法,都是通过拷贝源人物的嘴巴区域或是牙齿到目标人物上[14,29]。那些方法都会导致不一致,图1显示了我们的方法。



我们提出了一种从源到目标视频的实时的高度逼真的面部表情传输。 我们在现场设备中显示了结果,其中源视频由摄像头捕获,用于操纵目标的Youtube视频。另外,我们比较了最先进的方法,我们产生的视频质量和运行时方面都表现优异(我们是第一个实时RGB重现方法)。 总之,我们
942d
的主要贡献是:

*全局非刚性模型的捆绑方法(dense, global non-rigid model-based bundling)

*在无约束的实时RGB视频中,精确跟踪,高精度的外观及照明估算。

*子空间形变的人脸表情传输方法。

*一种新颖的口腔合成方法。

 2、相关工作

离线RGB视频的动作捕获

最近的离线动作捕获技术,通过将混合形状[15]或多线性面部[26]模型拟合到输入视频中,来逼近单目标重现问题。甚至通过反阴影的图像,提取几何精细尺度的表面细节。Ichim等[17]仅仅从输入去构建一个个性化的面部装置。他们从专门捕获的视频中执行头部的结构化运动重建,它们适合于身份和表达模型。从训练序列中学习特定于人的特征。Suwajanakorn等[28]从图像集合中学习特征模型,并基于模型到图像的流场(flow field)来跟踪面部动作。 Shi et al [26]基于一组选择的关键帧的全局能量优化实现令人印象深刻的结果。我们基于模型的捆绑方法来恢复人物特征与他们的方法相似。但是我们使用了强大和密集的全局光照对齐,并且我们执行了GPU上的高效数据并行优化策略。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐