DreamActor-H1,让产品与模特“一键生成”高保真交互视频。
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
DreamActor-H1是一个基于扩散变换器(DiT)的创新框架,能够根据配对的人与产品图像生成高质量的人与产品演示视频。DreamActor-H1基于大规模混合数据集进行训练,并结合多类别增强技术,在保持人与产品身份完整性和生成物理上可信的演示动作方面超越了最先进的方法,使其适用于个性化电商广告和交互式媒体。
论文:https ://www. arxiv.org/pdf/2506. 10568
主页:https ://submit2025-dream. github.io/DreamActor-H1
在电子商务和数字营销领域,生成高保真人机交互演示视频对于有效的产品展示至关重要。然而,大多数现有框架要么无法同时保留人和产品的身份,要么缺乏对人机交互空间关系的理解,导致呈现效果不真实,交互效果不自然。为了应对这些挑战,论文提出了一个基于扩散变换器(DiT)的框架。该方法通过注入成对的人机交互参考信息并利用额外的遮罩交叉注意力机制,同时保留了人机交互和产品特定细节,例如徽标和纹理。
论文采用3D身体网格模板和产品边界框来提供精确的运动引导,从而实现手势与产品位置的直观对齐。此外,结构化文本编码用于整合类别级语义,增强了跨帧小角度旋转变化时的3D一致性。我们的方法基于混合数据集进行训练,并采用了广泛的数据增强策略,在维护人类和产品的身份完整性以及生成逼真的演示动作方面,优于最先进的技术。
DreamActor-H1的流程采用DiT架构,首先进行数据集准备,其中VLM描述产品和人体图像,然后对训练视频进行姿态估计和边界框检测。在训练过程中,人体姿态和产品边界框与视频噪声相结合,用于运动引导;而VAE对输入图像进行编码,用于外观引导;人体-产品描述通过文本编码器输入模型。该模型融合了完全注意力机制、参考注意力机制和对象注意力机制(以产品潜在变量作为输入),其中参考注意力机制和对象注意力机制详见上图。
在推理过程中,该框架从预定义的池中检索最佳运动模板,并通过参考人体/产品图像的联合分析来调整对象框缩放,从而实现姿势一致的动画。
使用我们的基线(没有对象注意和文本输入)和我们的没有文本的消融研究。
论文提出的DreamActor-H1是一个基于DiffusionTransformer的框架,它通过整合遮罩交叉注意力机制、3D运动引导和语义感知文本编码,解决了生成高保真人机交互演示视频的难题。该方法能够有效地保留精细的人物和产品身份,同时确保人物手势和产品位置之间的自然空间对齐。大量实验表明,DreamActor-H1在维护身份完整性和生成物理上可信的交互方面优于最先进的方法,使其成为电子商务和数字营销场景的解决方案。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~