VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
机器之心发布
机器之心编辑部
随着Deepseek等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。并且分别在VDC(VideoDetailedCaptioning)[1]和VBench[2]两大国际权威榜单中斩获第一。
视频细粒度文本描述
视频细粒度文本描述模型(videodetailedcaption)为视频生成模型提供标签,是视频生成的基础。复旦大学等机构提出了Cockatiel方法[3],该方法在权威的VDC(VideoDetailedCaptioning视频细粒度文本描述评测集)榜单上获得第一名,超过了包括通义千问2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5等在内的多个主流视频理解多模态大模型。
论文标题:Cockatiel:EnsemblingSyntheticandHumanPreferencedTrainingforDetailedVideoCaption
项目主页:https ://sais-fuxi.github.io/projects/cockatiel/
论文地址:https ://arxiv.org/pdf/2503.09279
Github:https ://github.com/Fr0zenCrane/Cockatiel
Cockatiel的核心思路是:基于人类偏好对齐的高质量合成数据,设计三阶段微调训练流程,系统集成了多个在不同描述维度上表现领先的模型优势。通过这一方法,以单机的训练成本训练出了一套在细粒度表达、人类偏好一致性等方面均表现卓越的视频细粒度描述模型,为后续视频生成模型的训练和优化打下了坚实基础,模型细节如下(更多详情可参考论文和开源github):
阶段一:构造视频细粒度描述的人类偏好数据:分别对视频描述的对象、对象特征、动态特征、镜头动作和背景的文本描述质量进行人工标注。
阶段二:基于打分器的多模型集成训练:基于人工标注数据训练奖励函数(rewardmodel),并多个模型合成的视频描述计算奖励(reward),最终对13B的多模态大语言模型进行人类偏好对齐优化。
阶段三:蒸馏轻量化模型:基于上一步训练的13B的多模态大语言模型蒸馏8B模型,方便后续在下游任务中低成本推理。
实验结果显示基于Cockatiel系列模型生成的视频细粒度描述,具备维度全面、叙述精准详实以及幻觉现象较少的显著优势。如下图所示,与ViLA,LLaVA和Aria的基线模型相比,Cockatiel-13B不仅能够准确复现基线模型所描述的细节(以黄底高亮部分表示),还能捕捉到基线模型遗漏的关键信息(以红底高亮部分表示)。而Cockatiel生成的描述则大量避免了幻觉性内容,Cockatiel展现了更高的可靠性和准确性。
强化学习加强的视频生成技术
在视频生成领域,该团队首次提出了迭代式强化学习偏好优化方法IPOC[4],在权威视频生成评测榜单VBench(2025-04-14)上,IPOC以86.57%的总分强势登顶,领先通义万相、Sora、HunyuanVideo、Minimax、Gen3、Pika等众多国内外知名视频生成模型。
论文标题:IPO:IterativePreferenceOptimizationforText-to-VideoGeneration
论文地址:https ://arxiv.org/pdf/2502.02088
项目主页:https ://yangxlarge.github.io/ipoc//
GitHub地址:https ://github.com/SAIS-FUXI/IPO
研究者通过迭代式强化学习优化方式,避免了强化学习中训练不稳定的问题。同时只需要依赖少量的训练数据和算力,以低成本实现效果优化。模型细节如下(更多详情可参考论文和开源github):
阶段一:人工偏好数据标注:IPO方法通过逐视频打分(PointwiseAnnotation)与成对视频排序(PairwiseAnnotation)两种方式进行人工标注。标注过程中,标注者不仅需要提供评分或排序结果,还需详细阐述评分理由,以构建具有思维链(Chain-of-Thought,CoT)风格的标注数据。这种标注形式有助于模型深入理解视频内容与文本描述之间的语义一致性,从而形成高质量的人类偏好数据集。
阶段二:奖励模型训练:IPO方法进一步引入了一种基于多模态大模型的“奖励模型”(CriticModel)。奖励模型仅通过少量人工标注数据和少量算力即可高效训练完成,随后可自动实现对单个视频的评分以及对多个视频的对比排序。这种设计无需在每次迭代优化时都重新进行人工标注,显著提高了迭代优化效率。此外,奖励模型具备出色的通用性和“即插即用”特性,可广泛适配于各类视频生成模型。
阶段三:迭代强化学习优化:IPO方法利用当前的视频生成(T2V)模型生成大量新视频,并由已训练的奖励模型对这些视频进行自动评价与标注,形成新的偏好数据集。随后,这些自动标注的数据用于进一步优化T2V模型。这一过程持续迭代循环,即:“视频生成采样→样本奖励计算→偏好对齐优化”。此外,我们提出的IPO框架同时兼容当前主流的偏好优化算法,包括基于对比排序的Diffusion-DPO方法与基于二分类评分的Diffusion-KTO方法,用户可灵活选择训练目标,其中两种人类偏好对齐方法(DPO和KTO)的训练目标为:
DPO(DirectPreferenceOptimization):
KTO(Kahneman-TverskyOptimization):
实验结果显示经过优化后,视频生成模型在时序一致性上实现了显著提升。相比于CogVideoX-2B(左图),IPOC-2B生成的视频(右图)中,狮子的行走动作更加自然连贯,整体动态流畅度有了明显改善。
视频生成模型在结构合理性提升明显。相比于CogVideoX-2B(左图),IPOC-2B生成的视频(右图)中,人物和猛犸象具有更好结构合理性。
视频生成模型在动态程度和美学度都有明显提升,相比于CogVideoX-2B(左图),IPOC-2B生成的视频(右图)中,人物动作更加流畅,人物和背景更好美观。
相关内容:
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com