多人视频生成技术新突破！清华提出 DanceTogether：从单张图像到多人互动视频生成，从此告别身份混淆。

发布日期: 2025-06-15

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

在人工智能与计算机视觉领域，视频生成技术一直是研究的热点与难点。特别是多人互动视频的生成，要求系统能够在复杂多变的场景中，精准地捕捉并再现多个角色的动作、姿态以及他们之间的交互细节。由清华、北大、中科大、南大等学校联合发布了一种全新的解决方案——DanceTogether框架，它标志着可控多人互动视频生成技术迈出了重要一步。
论文：https ://arxiv. org/pdf/2505. 18078
项目：https ://DanceTog. github.io/
传统的视频生成系统在处理单人动作时表现尚可，但一旦涉及多人互动，尤其是需要保持每个角色身份一致性时，便显得力不从心。^现有方法大多采用逐帧合成再平滑处理的策略，这不仅难以保证长时间序列中的身份一致性，还容易出现交互细节丢失、角色身份混淆等问题。
DanceTogether流程概述：一张参考图像和每个人的姿势/面具序列进入系统；MaskPoseAdapter融合这些控制信号，MultiFaceEncoder注入身份令牌，视频传播主干网合成一个交互视频，为所有参与者保留一致的身份。
作为首个端到端的扩散框架，DanceTogether能够将单张参考图像和独立的多人姿态-掩码序列转化为长时段、高真实感的多人互动视频，同时严格保持每个角色的身份特征。
数据管理流程概述。通过人体追踪、使用SAMURAI生成遮罩、使用DW-Pose进行姿态估计以及alpha抠图来处理原始视频，从而生成每个人的标注。
MaskPoseAdapter：通过融合稳定的追踪掩码与语义丰富的姿态热图，MaskPoseAdapter在每个去噪步骤中绑定“谁”与“如何动”，有效解决了身份漂移和外观混合的问题。
MultiFaceEncoder：从单张图像中提取紧凑的身份标记，并在整个视频序列中保持外观一致性，确保每个角色的面部特征在长时间序列中保持不变。
VideoDiffusionBackbone：利用对齐的姿态和掩码信号，合成高分辨率的视频片段，确保多人动作的一致性、物理合理性以及角色间的无漂移。
为了训练和评估DanceTogether，研究团队构建了多个高质量的数据集：
PairFS-4K：包含26小时的双滑冰者视频，超过7000个独特身份，是首个大规模双人花样滑冰视频数据集。
HumanRob-300：一小时的人形机器人互动数据集，用于快速跨域迁移学习。
TogetherVideoBench：一个综合评估基准，包含身份一致性、交互连贯性和视频质量三个评估轨道，通过DanceTogEval-100测试套件全面评估视频生成性能。
在TogetherVideoBench基准上的实验结果显示，DanceTogether在多个关键指标上均显著优于现有方法：
身份一致性：HOTA指标提升12. 6%，IDF1指标提升7. 1%，MOTA指标提升5. 9%。
交互连贯性：MPJPE2D误差降低69%，OKS和PoseSSIM指标显著提升，表明动作更加精准、交互更加流畅。
视频质量：FVD和FID指标显著降低，CLIP对齐效果提升，视觉真实感显著增强。
DanceTogether框架的提出，标志着可控多人互动视频生成技术进入了一个新的发展阶段。通过融合先进的扩散模型与创新的条件适配器，DanceTogether不仅解决了现有技术中的诸多难题，还为未来的研究提供了新的方向。
DanceTogether不仅为影视制作、数字人动画、VR/AR行业带来了革命性的变化，还为具身智能研究提供了高保真度的训练数据。然而，随着技术的普及，如何防止深度伪造、身份冒用和隐私侵犯等潜在风险，也成为了亟待解决的问题。
感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术，关注我们，了解更多前沿科技动态！🚀～