FICCV 2021 | audi( 二 )

(3) 我们的 FACIAL-GAN 还可以预测眨眼信息，这些信息被进一步嵌入到最终渲染模块的眼部相关的注意力图中，用于在输出视频合成逼真的眼部运动信息。实验结果和用户研究表明，我们的方法可以生成逼真的谈话人脸视频，该生成视频不仅具有同步的唇部运动，而且具有自然的头部运动和眨眼信息。并且其视频质量明显优于现有先进方法。

文章插图

图 3 本方法提出的FACIAL-GAN网络结构框架
如图3所示，FACIAL-GAN 由三个基本部分组成：时间相关生成器用于构建上下文关系和局部语音生成器用于提取每一帧特征。此外，使用判别器网络来判断生成的属性的真假。（具体的网络细节请参考原文内容）

实验结果分析

定性比较实验

图 4 与现有音频驱动的人脸视频生成方法的定性比较结果
如图4，图5，图6所示，我们与现有音频驱动的人脸视频生成方法进行比较。相比之下，通过显式和隐式属性的协同学习，我们的方法生成具有个性化的头部运动，考虑到不同个体的运动特性，同时可以生成更加逼真眨眼信息的人脸视频。（详细的比较结果请参考上述的视频链接）

文章插图

图 5 与 Vougioukas，Chen等方法的定性对比

文章插图

图 6 与 Suwajanakorn，Thies等方法的定性对比

定量比较实验

我们同时通过定量化分析实验，如关键点运动偏移，视听同步置信度进行衡量，具体信息如表1所示。本文所提出的联合隐式和显式属性生成框架，超越了大多数现有方法，在各项属性生成任务中，均具有较优的解析质量。

文章插图

如表2所示，我们通过进行主观的用户研究（User Study），即从人类观察的角度比较生成的结果，其中更大的数值代表更优的生成质量和用户认可度。

文章插图

结语

在这项工作中，除传统的唇部运动等显式属性之外，我们以自然头部姿势和眨眼信息等隐式属性作为学习目标，优化谈话人脸视频的生成质量和真实度。但需要注意的是，人脸谈话视频仍然具有其他更细节的隐式属性，例如，眼球运动、身体和手势、微表情等等。这些属性可能受其他更深层次维度信息的引导，可能需要其他网络组件的特定设计，仍有待于未来进一步探究。我们希望本文提出的FACIAL 框架可以为未来探索隐式属性学习提供一种新颖的研究思路和启发。

参考文献

[1] Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. CVPR, 2019.

[2] Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. AAAI, 2019.

[3] Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. TOG, 2017.

[4] Justus Thies, Mohamed Elgharib, Ayush Tewari, Christian Theobalt, and Matthias Nie?ner. Neural voice puppetry: Audio-driven facial reenactment. ECCV, 2020.