字节发布视频基础大模型Seaweed,70亿参数超越同类140亿参数视频模型效果,单GPU就可生成1080P!


字节发布视频基础大模型Seaweed,70亿参数超越同类140亿参数视频模型效果,单GPU就可生成1080P!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

Seaweed是“Seed-Video”的缩写,是一项旨在构建视频生成基础模型的研究成果。该网页展示了拥有约70亿(7B)个参数的扩散变换器(DiffusionTransformer),使用相当于1,000个H100GPU的计算能力进行训练。Seaweed从海量多模态数据(例如视频、图像和文本)中学习世界表征。它允许根据文本描述创建各种分辨率、宽高比和时长的视频。在本文中,我们将展示其生成的视频,并重点介绍其作为基础模型的标志性功能,该模型能够支持广泛的下游应用。
Seaweed非常擅长生成逼真的人类角色,展现出多种多样的动作、手势和情感。
Seaweed擅长生成各种景观。凭借其精妙的细节和动态的构图,它可以创造出视觉震撼的环境,增强叙事效果。
Seaweed提供增强的控制功能,使用户能够精准地创作他们所设想的内容。通过提供图像作为第一帧,用户可以控制模型以一致的动作和风格生成视频的其余部分。这赋予用户对视觉美学的完全控制权,使其成为对准确性和创意方向至关重要的应用的理想选择。
Seaweed还可以对第一帧和最后一帧进行调节,从而生成有趣的过渡视频,以实现更好的创意控制。
Seaweed还可以进行微调,根据参考图像生成视频,为用户提供灵活的输入选项。无论是人物参考图像、物体参考图像,还是多幅参考图像的组合,该模型都可以将它们合成为动态视频序列。
Seaweed经过Omnihuman的调整,可根据音频输入生成内容,从而创建与音频声音完美匹配的逼真人物角色。该模型确保唇部动作和肢体动作与音频的音调和节奏同步,从而实现无缝逼真的互动。
主页:https ://seaweed.video
论文:https ://arxiv.org/abs/2504.08685
论文介绍了一种用于训练视频生成基础模型的经济高效的策略。提出了一个名为Seaweed-7B的中型研究模型,该模型拥有约70亿个参数(7B),使用665,000个H100GPU小时从零开始训练。尽管训练所需的计算资源有限,但Seaweed-7B的性能与规模大得多的当代视频生成模型相比依然极具竞争力。在资源受限的环境下,设计决策尤为重要。本技术报告重点介绍了提升中型扩散模型性能的关键设计决策。从实证研究来看,得出两点观察结果:
Seaweed-7B的性能可与使用更大规模GPU资源训练的大型模型相媲美,甚至超越它们;
Seaweed-7B表现出强大的泛化能力,可以通过轻量级微调或持续训练,有效地应用于各种下游应用。
作者观察到使用更大的72BLLM可以减少字幕任务中的幻觉。然而,使用72B模型为数百万个视频生成字幕会显著增加计算成本。因此利用72BLLM作为教师模型,将知识提炼到计算效率更高的7B学生模型中,从而在不增加额外推理开销的情况下提高字幕准确率。此外研究结果表明,先生成“详细”字幕,然后再推导出“简短”字幕(类似于思维链过程),可以进一步提高简短字幕的准确率。在测试集上,这种推理策略将准确率从84.81%提升到了90.84%。
数据构成了视频生成模型的基础。为了高效地大规模处理和检索视频数据,我们开发了一套高吞吐量且灵活的视频整理流程。该流程旨在用于管理视频编码和解码、执行时间分割和空间裁剪,并应用所有视频质量过滤操作。利用该系统从海量视频数据中识别出高美感、高清晰度和动态丰富的视频片段。凭借这套基础架构,每天能够处理超过50万小时的视频数据。鉴于这些数据的质量足以满足训练需求,因此,我们的重点是如何利用各种数据处理器有效地挖掘高质量视频片段。变分自编码器(VAE)由一个编码器(将原始像素数据压缩到紧凑的潜在空间)和一个解码器(根据这些潜在特征重建原始输入像素)组成。理想的变分自编码器(VAE)应该在保持高重建质量的同时实现高压缩比。VAE是一个重要的组成部分,因为它设定了生成内容的真实度和保真度的上限,其潜在分布影响后续生成模型的收敛速度。
论文提出了一个具有70亿个参数、经济高效的视频生成基础模型。研究结果表明,尽管使用了适度的计算资源,Seaweed-7B的性能仍与使用更多GPU资源训练的大型模型相当甚至更胜一筹,并且在各种视频生成任务中展现出强大的泛化能力。
局限性。
几乎所有视频基础模型方面都存在很大的改进空间。应对这些挑战需要研究界和业界的共同努力,推动数据管理、模型设计和后期训练方面的进步。
由于计算能力有限,模型在生成细粒度细节(例如小脸或精细图案)方面存在局限性。
确保可靠的视频生成仍然是一个关键的研究领域。需要付出更多努力来增强视频生成过程中的安全性、公平性和道德考量。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录