256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV


256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

近日,抖音内容技术团队开源了ContentV,一种面向视频生成任务的高效训练方案。该方案在多项技术优化的基础上,使用256块NPU,在约4周内完成了一个8B参数模型的训练。尽管资源有限,ContentV在多个评估维度上取得了与现有主流方案相近的生成效果。
该工作探索了在有限算力条件下训练视频生成模型的可行路径。目前,推理代码与模型权重已对外开放。
论文标题:ContentV:EfficientTrainingofVideoGenerationModelswithLimitedCompute
技术报告:https ://arxiv. org/abs/2506. 05343
代码仓库:https ://github. com/bytedance/ContentV
模型权重:https ://huggingface. co/ByteDance/ContentV-8B
项目主页:https ://contentv. github.io
我们先来看一些效果展示视频:
✨核心亮点
🔧极简设计
CogVideoX、HunyuanVideo和Wan2. 1等一系列优秀的开源工作表明,视频生成的关键并不在于架构上的特殊设计,而在于如何高效利用有限的数据资源,并有效对齐人类偏好。
为验证ContentV方案的通用性,本次开源的版本在扩散模型部分采用了经典的文生图模型StableDiffusion3. 5Large。为了适配视频模态,模型在结构上仅做了以下两项必要调整:
将原始图像VAE替换为Wan2. 1中使用的3D-VAE;
将2D位置编码升级为3D版本。在具体编码方式上,团队对比了传统的绝对位置编码与主流的旋转位置编码。评估结果显示,两者在客观指标和主观感受上差异较小,因此保留了计算更高效的绝对位置编码方案。
ContentV模型结构
🧠多阶段渐进训练策略
上述的最小化结构改动,在解锁了视频生成能力的同时,也最大限度地保留了原模型的图像生成能力。实验证明,在新的VAE和位置编码的适配阶段,沿用FlowMatching的训练方式,仅需1000步左右的微调,就能基本还原模型的图片生成能力,大幅节省图片预训练阶段的训练成本。
在视频生成的预训练阶段,为加速收敛实现高效训练,研究团队设计了一套从「低清短片」到「高清长片」的多阶段渐进式训练流程,逐步引导模型学习时间维度与空间维度上的动态表征,从而提升视频的连续性、动态表现力和画面细节。
此外,实验证明,在推理阶段引入非线性采样步长机制(FlowShift)能够显著提升视频的整体生成质量。通过多组对比实验,团队最终确定了最优的采样策略,进一步优化了生成效果。
VAE适配过程
⚡轻量级RLHF强化训练
RLHF显著提升画面质感
在后训练阶段,除了使用高质量数据集进行微调外,通过RLHF或DPO等对齐人类偏好的监督训练,也能显著提升视频生成质量。然而,这类方法通常依赖大量人工标注,用于训练奖励模型或直接监督扩散模型。同时,相较于图像,视频的序列长度显著增加了RLHF和DPO的训练资源需求。
为此,ContentV研究团队提出了一种轻量级的RLHF训练方案,旨在不依赖人工标注的前提下,低成本提升视频质量:
利用开源的图像奖励模型对生成视频的单帧进行监督。相较于视频场景,目前图像奖励模型的训练数据更易获取,且在实际效果中表现更佳。实验证明,由于MMDiT采用全局注意力机制,仅优化单帧即可带动整体视频质量的提升;
将监督范围限制在生成视频的前1秒,相较于对完整视频进行监督,可大幅减少训练资源的消耗,同时获得相近的质量提升效果。
采用上述策略后,在无需人工标注的情况下,仅使用少量训练资源,便可显著提升画面质量。RLHF微调后,模型在视觉质量(VQ)指标上的表现大幅提升,评估胜率高达89. 38%。
🏆效果对比
在VBench这一主流视频生成评测基准上,ContentV(8B)取得了85. 14的综合得分,表现优于多个现有的商业闭源模型,包括Sora、Kling1. 6和Gen-3等。
VBench榜单(按照Overall分数降序排列)
为更贴近真实用户偏好,研究团队围绕感知质量、指令跟随、物理一致性和视觉效果四个维度开展了人类偏好评估。结果显示,ContentV在整体表现上与CogVideoX-5B、HunyuanVideo-13B和Wan2. 1-14B等主流开源模型相比具有一定优势。
人类偏好评估指标
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录