昆仑万维提出开源版视频生成模型SkyReels-A2,可实现多图输入作为参考高效生成视频,超多玩法等你探索!


昆仑万维提出开源版视频生成模型SkyReels-A2,可实现多图输入作为参考高效生成视频,超多玩法等你探索!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

SkyReels-A2模型利用视频扩散变换器的创新方法,通过编码参考图像的空间和语义特征,可实现用多图输入作为参考素材高效生成视频。可应用的场景如将角色、目标和背景参考图像合成自然的视频,多人参考构图生成视频,电子商务,虚拟主播卖货,AI生成MV等,大家可以打开脑洞,探索更多玩法!
✨相关链接
论文:https ://github.com/SkyworkAI/SkyReels-A2
代码:https ://github.com/SkyworkAI/SkyReels-A2
主页:https ://skyworkai.github.io/skyreels-a2.github.io
演示:https ://www.skyreels.ai/
模型:https ://huggingface.co/Skywork/SkyReels-A2
SkyReels-A2是一个可控的视频生成框架,能够根据文本提示将任意视觉元素(例如,人物、物体、背景)组装成合成视频,同时保持每个元素与参考图像的严格一致性。我们将此任务称为元素到视频(E2V),其主要挑战在于保持每个元素与参考图像的保真度、确保场景构图的连贯性以及实现自然的输出。
为了解决这些问题,我们首先设计了一个全面的数据流水线,用于构建用于模型训练的提示-参考-视频三元组。接下来,我们提出了一种新颖的图像-文本联合嵌入模型,将多元素表征注入生成过程,在元素特定一致性与全局一致性和文本对齐之间取得平衡。我们还优化了推理流水线,以提高速度和输出稳定性。
此外,我们还引入了一个精心策划的系统评估基准,即A2Bench。实验表明,我们的框架能够生成多样化、高质量的视频,并精准控制元素。SkyReels-A2是首个商用级开源E2V生成模型,其性能优于先进的商用闭源模型。
SkyReels-A2框架概览。我们的方法首先使用两个不同的分支对所有参考图像进行编码。第一个分支称为空间特征分支(红色,上行),利用细粒度VAE编码器处理每个构图的图像。第二个分支称为语义特征分支(红色,下行),利用CLIP视觉编码器,然后是MLP投影来编码语义参考。随后,将空间特征沿通道维度与带噪视频标记连接,然后传递到扩散变换器模块。同时,从参考图像中提取的语义特征通过补充交叉注意层合并到扩散变换器中,确保在扩散过程中有效地整合语义上下文。
该流程从预处理开始,首先根据分辨率、标签、类型和来源对原始视频进行筛选,然后基于关键帧进行时间分割。接下来,专有的多专家视频字幕模型会生成视频片段的整体描述和结构化概念注释。随后,检测和分割模型会提取视觉元素(例如,人物、物体、环境)。为了减少重复,系统会根据片段/面部相似度得分从其他片段中检索参考图像。进一步的细化包括人脸检测和人体解析,以获取面部/服饰元素。最后,将提取出的元素与结构化描述进行匹配,形成训练三元组(视觉元素、视频片段和文本字幕)。
A2-Bench涵盖的维度。我们的评估兼顾了自动指标和用户研究,同时涵盖了多个视角,能够精准反映元素到视频(E2V)任务的质量。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录