港科&腾讯&清华提出全球首个多模态Mamba生成框架ACTalker,支持多信号输入,数字人嘴型同步再升级!


港科&腾讯&清华提出全球首个多模态Mamba生成框架ACTalker,支持多信号输入,数字人嘴型同步再升级!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

由港科大、腾讯、清华联合发布的全球首个多模态Mamba驱动框架ACTalker,它是一个端到端的视频扩散框架,支持多信号控制和单信号控制,用于生成说话头部视频可以实现单/多信号随心切换,虚拟人嘴型同步精度大幅提升!
ACTalker框架不仅可以生成由多个信号驱动的视频,而不会引起面部区域的控制冲突(前三行),而且还支持由单个信号驱动的视频生成(后两行)。
论文:https ://arxiv.org/pdf/2504.02542
项目:https ://harlanhong.github.io/publications/actalker
说话头部合成对于虚拟化身和人机交互至关重要。然而,大多数现有方法通常仅限于接受单一主要模态的控制,限制了其实际应用。为此,我们引入了ACTalker,这是一个端到端的视频扩散框架,支持多信号控制和单信号控制,用于生成说话头部视频。对于多信号控制,作者设计了一个并行的mamba结构,该结构具有多个分支,每个分支使用单独的驱动信号来控制特定的面部区域。所有分支都应用了门控机制,从而可以灵活地控制视频生成。为了确保受控视频在时间和空间上的自然协调,我们采用了mamba结构,该结构允许驱动信号在每个分支的两个维度上操纵特征标记。此外引入了一种mask-drop策略,允许每个驱动信号在mamba结构内独立控制其对应的面部区域,从而避免控制冲突。实验结果表明,该方法能够生成由多种信号驱动的自然面部视频,并且mamba层能够无缝集成多种驱动模态而不会发生冲突。
ACTalker框架示意图。ACTalker接收多种信号输入(例如音频和视觉面部运动)来驱动说话头部视频的生成。除了稳定视频扩散模型中的标准层(例如空间卷积、时间卷积、空间注意力和时间注意力)之外,还引入了一个并行控制的Mamba层,以充分利用多信号控制的强大功能。音频和面部运动信号以及相应的掩码被输入到这个并行控制的Mamba层中,这些掩码指示了需要重点关注的区域。
并行控制Mamba层示意图。此层有两个并行分支,一个用于音频控制,另一个用于表情控制。在每个分支中使用一个门控来控制训练期间控制信号的访问。在推理过程中可以手动修改门控的状态,以实现单信号控制或多信号控制。
比较不同的音频驱动说话头部生成方法。该方法可以生成更自然、更准确的口型同步视频。
本研究引入了视听控制视频扩散(ACTalker)模型,这是一个用于生成说话头部的新型端到端框架,它使用音频和细粒度表情信号实现无缝同步控制。通过结合遮罩丢弃(maskdrop)策略,该模型可以聚焦于每个控制信号的相关面部区域,从而提升视频质量并防止生成视频中的控制冲突。在高难度数据集上进行的大量实验表明,该方法能够生成自然的说话头部视频,并精确控制多个信号,相比现有方法取得了更优异的效果。消融研究验证了我们的遮罩丢弃策略在增强生成内容方面的有效性,以及门控机制在灵活控制视频生成过程方面的有效性。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录