SyncTalk++:高斯泼溅技术赋能,101帧/秒实时渲染逼真说话人头像
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
由中国人民大学、北京邮电大学、中国科学院、清华大学以及北京航空航天大学联合提出的SyncTalk可以合成同步说话头部视频,采用三平面哈希表示来维护主体身份。它可以生成同步的唇部动作、面部表情和稳定的头部姿势,并恢复头发细节以创建高分辨率视频。
论文:https ://arxiv. org/pdf/2506. 14742
代码:https ://github. com/ziqiaopeng/SyncTalk
项目:https ://ziqiaopeng. github.io/synctalk++
SyncTalk++:High-FidelityandEfficientSynchronizedTalkingHeadsSynthesisUsingGaussianSplatting
在合成逼真的、语音驱动的说话头像视频时实现高度同步是一项重大挑战。逼真的说话头像需要主体身份、唇部动作、面部表情和头部姿势的同步协调。这些同步的缺失是一个根本性的缺陷,会导致不真实的结果。
为了解决同步这一关键问题(即创建逼真说话头像的“魔鬼”),论文推出了SyncTalk++。它包含一个带有高斯分布的动态人像渲染器,以确保主体身份的一致性;以及一个FaceSync控制器,可将唇部动作与语音对齐,同时创新地使用3D面部混合形状模型来重建准确的面部表情。
为了确保自然的头部运动,论文提出了一个头部同步稳定器,它可以优化头部姿势以获得更高的稳定性。此外,SyncTalk++通过整合表情生成器和躯干恢复器来增强对分布外(OOD)音频的鲁棒性,这两个工具可以生成与语音匹配的面部表情和无缝的躯干区域。我们的方法能够保持跨帧视觉细节的一致性和连续性,并显著提升渲染速度和质量,最高可达每秒101帧。大量实验和用户研究表明,SyncTalk++在同步性和真实感方面超越了最先进的方法。
SyncTalk++概述。给定一段裁剪的头部说话参考视频及其对应的语音,SyncTalk++可以通过两个同步模块和提取唇部特征、表情特征和头部姿势。然后,使用高斯Splatting对头部进行建模和变形,生成头部说话视频。OOD音频表情生成器和躯干恢复器可以生成与语音匹配的面部表情,并修复头部和躯干连接处的伪影。
不同方法的面部合成定性比较。提出的方法在唇部运动和面部表情方面具有最佳的视觉效果,并且没有头部和躯干分离的问题。
本文介绍了SyncTalk,这是一种高度同步的、基于NeRF的逼真语音驱动头部特写合成方法。提出的框架包含面部同步控制器、头部同步稳定器和肖像同步生成器,它们能够保持主体身份并生成同步的唇部动作、面部表情和稳定的头部姿势。经过广泛的评估,SyncTalk在创建逼真且同步的头部特写视频方面表现出比现有方法更优异的性能。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~