美团LLIA登场,让照片“开口说话”不卡顿:低延迟、高帧率,音频驱动肖像视频进入实时交互时代!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
美团提出了一种基于扩散模型的音频驱动人像视频生成框架LLIA。该方法实现了低延迟、流畅且真实的双向通信。在NVIDIARTX4090D显卡上,该模型在384×384分辨率下最高帧率可达78FPS,在512×512分辨率下最高帧率可达45FPS,初始视频生成延迟分别为140毫秒和215毫秒。
该模型可以实现两个数字化身之间的实时通信。
该方法能够生成逼真的面部表情和自然的头部动作,同时确保低延迟和实时性能。
通过在同一幅肖像图像上应用肖像动画来实现可控的面部表情操纵。
虚拟面试官
手机上的聊天机器人
论文:https ://arxiv. org/pdf/2506. 05806
项目:https ://github. com/MeiGen-AI/llia
论文提出了一种基于扩散模型的新型音频驱动人像视频生成框架LLIA。首先提出了一种鲁棒的可变长度视频生成方法,以减少生成初始视频片段或状态转换所需的最短时间,从而显著提升用户体验。其次提出了一种用于音画转视频的一致性模型训练策略,以确保实时性能,从而实现快速的几步生成。进一步采用模型量化和流水线并行性来加速推理速度。为了减轻扩散过程和模型量化带来的稳定性损失,论文引入了一种专为长时视频生成量身定制的新型推理策略。这些方法在确保高保真输出的同时,还确保了实时性和低延迟。第三,论文将类别标签作为条件输入,以便在说话、聆听和空闲状态之间无缝切换。最后设计了一种新颖的细粒度面部表情控制机制,以充分利用模型的固有能力。大量实验表明,该方法实现了低延迟、流畅且真实的双向通信。在NVIDIARTX4090D上,我们的模型在384x384分辨率下最高可达78FPS,在512x512分辨率下最高可达45FPS,初始视频生成延迟分别为140毫秒和215毫秒。
所提方法概述。流程引入了几个新颖的模块。
我们首先应用肖像动画来调整其面部表情,使其与我们提供的模板相匹配,然后将参考肖像输入到ReferenceNet。
虚拟形象的状态由输入音频通过类别标签确定。这些标签可以直接从声学特征推断出来,或者由LLM模型引导以指示适当的状态。
连续噪声潜在向量的长度在早期迭代中是固定的。之后,它变为动态的,使模型能够生成可变长度的视频。
论文提出了一种音频驱动的肖像视频生成技术,该技术能够实现低响应延迟、实时交互的虚拟化身。研究表明基于扩散模型的数字虚拟化身也能够与用户实时交互,并保持低响应延迟。实验结果进一步验证了该系统在生成质量、无缝多状态切换和表情控制方面的卓越性能,并且具有极低的延迟,非常适合实际的交互应用。这项研究为在时间敏感、用户驱动的多媒体生成场景中利用扩散模型开辟了新的可能性和前景。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~