GigaAI发布全球首个解耦式人体视频生成框架HumanDreamer，可生成由文本到姿态到人体的高质量视频！

发布日期: 2025-04-26

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

由GigaAI、北大、港中文联合提出了一个解耦的人体视频生成框架HumanDreamer，可以根据文本提示生成各种姿势，然后利用这些姿势生成人体运动视频。
此外论文还提出了用于人体运动姿势生成的最大数据集MotionVid，基于该数据集作者提出了MotionDiT，它经过训练可以从文本提示生成结构化的人体运动姿势。
论文：https ://arxiv.org/pdf/2503.24026
项目：https ://humandreamer.github.io
代码：https ://github.com/GigaAI-research/HumanDreamer
(Comingsoon…)
人体运动视频生成一直是一项颇具挑战性的任务，这主要是因为学习人体运动本身就存在难度。虽然一些方法尝试通过姿势控制来明确驱动以人为中心的视频生成，但这些方法通常依赖于从现有视频中获取的姿势，因此缺乏灵活性。
为了解决这个问题，论文提出了HumanDreamer，这是一个解耦的人体视频生成框架，它首先根据文本提示生成各种姿势，然后利用这些姿势生成人体运动视频。作者提出了MotionVid，这是用于人体运动姿势生成的最大数据集。基于该数据集提出了MotionDiT，它经过训练可以从文本提示生成结构化的人体运动姿势。此外还引入了一种新颖的LAMA损失函数，这两项指标共同使FID显著提升了62.4%，同时top1、top2和top3的R精度分别提升了41.8%、26.3%和18.3%，从而提升了文本到姿势控制的准确率和FID指标。
在各种Pose-to-Video基线上进行的实验表明该方法生成的姿势可以生成多样化且高质量的人体运动视频。此外，该模型还可以支持其他下游任务，例如姿势序列预测和2D-3D运动提升。
HumanDreamer是一个用于生成人体运动视频的开创性解耦框架，它将文本控制的灵活性与姿势引导的可控性融为一体。利用最大的人体运动姿势生成数据集MotionVid，训练MotionDiT生成结构化姿势。论文引入了LAMA损失函数来改进语义对齐，确保输出的一致性。实验结果表明，在Pose-to-Video中使用生成的姿势可以生成高质量、多样化的人体运动视频，超越了当前的基准。这些发现证实了提出的解耦框架的有效性和适应性，有助于实现多样化的视频生成。
感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术，欢迎一起交流学习💗～