复旦联合百度发布Hallo4:让AI肖像“活”起来!新型扩散框架实现高保真音频驱动动画生成!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
复旦联合百度发布扩散框架Hallo4,实现了准确的唇音同步、自然的面部表情,并能够稳健地处理各种角色身份和环境场景中快速的语音节奏和突然的上身运动。
论文:https ://arxiv. org/pdf/2505. 23525
项目:https ://github. com/xyz123xyz456/hallo4
由于需要精确的唇部同步、自然的面部表情和高保真度的身体运动动态,生成由音频和骨骼运动驱动的高动态和逼真的肖像动画仍然具有挑战性。我们提出了一个与人类偏好一致的扩散框架,通过两项关键创新来应对这些挑战。首先,我们引入了针对以人为中心的动画定制的直接偏好优化,利用精选的人类偏好数据集,将生成的输出与感知指标进行对齐,以实现肖像运动与视频的对齐和表情的自然性。其次,我们提出的时间运动调制通过时间通道重分配和比例特征扩展,将运动条件重塑为维度对齐的潜在特征,从而解决了时空分辨率不匹配的问题,并在基于扩散的合成中保留了高频运动细节的保真度。所提出的机制是对现有基于UNet和DiT的肖像扩散方法的补充。实验表明,与基线方法相比,该方法在唇音同步、表情生动度和身体运动连贯性方面均有显着提升,同时在人类偏好指标方面也取得了显着提升。
所提出的肖像动画框架示意图。给定参考肖像图像和多模态控制信号(音频波形和可选的骨骼运动序列),论文方法通过两项关键创新生成高保真、动态连贯的动画:
直接偏好优化,以实现与人类对齐的同步和表现力;
统一的时间运动调制,以保留高频身体运动细节。
该框架实现了准确的唇音同步、自然的面部表情,并能够稳健地处理各种角色身份和环境场景中快速的语音节奏和突然的上身运动。
论文提出了一个基于人类偏好的头像动画新框架,该框架将直接偏好优化与统一的时间运动调制相结合。通过整理首个以运动视频同步和表情自然度为目标的DPO数据集,论文方法显著提升了唇部同步的准确性和面部表情的丰富性,同时保持了高保真渲染。提出的时间调制机制通过特征重分配有效地解决了DiT架构中的运动粒度下降问题,从而实现了快速关节手势的精确同步。虽然工作目前专注于上半身合成,但它为将偏好感知优化扩展到全身头像动画奠定了基础。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~