多领域SOTA诞生!Vid2World:打通视频扩散到世界模型的“任督二脉”|清华、重大


多领域SOTA诞生!Vid2World:打通视频扩散到世界模型的“任督二脉”|清华、重大

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

论文链接:https ://arxiv. org/pdf/2505. 14357项目链接:https ://knightnemo. github.io/vid2world/
生成效果速览
亮点直击
首个系统性探索如何将全序列、非因果、被动的视频扩散模型迁移为自回归、交互式、动作条件的世界模型的问题。
提出Vid2World,一个通用且高效的解决方案,包含了将视频扩散模型因果化和动作条件化的多项新颖技术。
Vid2World在多个领域中都达到了SOTA,为这一关键问题建立了新的基准,并为未来研究提供了有力支持。
现有世界模型的局限性:传统世界模型在顺序决策中虽然具有效率优势,但通常依赖大量特定领域的数据训练,且生成结果粗糙、保真度低,难以适应复杂环境。
视频扩散模型的潜力未被充分利用:尽管大规模预训练的视频扩散模型具备生成高质量、真实世界动态视频的能力,但尚未被有效迁移用于交互式世界模型中。
提出Vid2World,一种通用方法,用于将预训练的视频扩散模型转化为自回归、交互式、动作条件的世界模型。
该方法通过结构调整和训练目标变换,实现对原始被动模型的因果化处理,使其支持顺序生成与交互。
模型因果化(Causalization):重构视频扩散模型的架构与训练目标,使其支持基于历史信息的自回归预测。
因果动作引导机制(CausalActionGuidance):引入动作条件控制模块,增强生成过程对动作的响应能力,实现更强的交互性。
迁移学习:将大规模预训练的视频生成模型迁移至世界建模任务,提升泛化能力与表现力。
Vid2World在机器人操作和游戏模拟等多个任务中取得了当前最先进的性能。
建立了该方向上的新基准,验证了将视频扩散模型用于世界建模的可行性与优势。
为未来多模态世界模型的研究提供了可扩展、高效的解决方案和技术路径。
该研究开辟了将强大的视频生成模型用于交互式世界建模的新方向,为多模态智能体的构建提供了重要基础。
尽管视频扩散模型在生成高保真、物理上合理的序列方面表现出色,但其默认形式在本质上与交互式世界建模不兼容。具体而言,有两个关键的转换障碍尤为突出:
缺乏因果生成能力:典型的视频扩散模型使用双向时间上下文生成帧,允许未来帧影响过去帧;
缺乏动作条件建模:这些模型通常基于粗粒度的视频级输入(例如文本提示)进行条件建模,缺乏对细粒度、帧级动作的条件建模机制。
虽然这些设计在开放式视频合成中非常有效,但与交互式世界建模的需求并不一致。交互式世界建模要求预测必须仅依赖于过去的观测和动作,并且模型必须对帧级动作做出灵敏响应,准确捕捉其对未来预测的影响。
本文提出了Vid2World,这是一种将预训练视频扩散模型迁移为交互式世界模型的通用方法。Vid2World引入了两个关键修改,分别用于实现自回归生成和动作条件生成。首先,本文提出了视频扩散因果化策略,该策略将非因果架构转换为时间因果变体,与后训练目标兼容,同时最大限度地保留预训练权重。然后,引入了因果动作引导机制,以在推理过程中以无分类器方式实现逐步的交互式回滚。该方法通过轻量级嵌入层注入动作信号,并通过独立的动作dropout扩展后训练目标。本文的训练与推理方法概览如下图3所示。
为了使视频扩散模型具备因果生成能力,必须对架构和训练目标进行修改。从架构角度来看,标准视频扩散模型包含双向时间模块,例如时间注意力或非因果卷积,这些模块在去噪步骤中允许信息在所有时间步之间流动。尽管这些模块在完整序列生成中非常有效,但它们在自回归世界建模中本质上是不兼容的,在该建模中当前观测不应依赖于未来的观测或动作。这就需要进行转换以强制实现时间因果性。
时间注意力层(TemporalAttentionLayers)。将非因果的时间注意力层转换为因果版本可以通过应用因果掩码实现。由于注意力是通过查询和键之间的点积运算进行的,天然适应于可变长度序列,因此限制感受野以排除未来帧并不会改变token之间关系的基本计算。因此,这一转换不需要参数修改。
时间卷积层(TemporalConvolutionLayers)。时间卷积层使用以当前时间步为中心的对称卷积核,允许特征从过去和未来流动。不同于时间注意力层,简单地将卷积层适配为时间因果卷积层并不能充分利用卷积核的权重。
一种朴素的方法,称之为权重平移迁移(shiftweighttransfer),直接重用完整的预训练卷积核(设时间维度上的卷积核大小为),通过将其向过去平移个时间步,使得卷积核的感受野位于当前时间步之前。虽然这种方法保留了所有的卷积核权重,但它会引起时间错位:卷积核的第个位置现在汇聚的是时间步的信息,不能保证生成相似的表示。
本文引入了混合权重迁移(mixedweighttransfer)方法,其中不再将卷积核权重平移,而是保留对应位置的权重,并将未见位置的权重初始化为时间维度上卷积核权重的平均值,从而混合时间信息。具体而言,迁移后的权重在时间维度上位置满足:
该卷积结构适配机制的示意图如下图2所示。虽然在世界建模中进行因果生成需要结构上的适配,但仅靠结构适配并不足够。为了支持交互式环境中的因果生成,即未来帧是逐步预测的,并依赖于之前完全去噪的帧和动作(即设置去噪的噪声级别为,其中),训练过程必须能够捕捉推理时的噪声级别分布。
在标准的视频扩散模型中,训练过程遵循的是同质噪声调度,其中视频中的所有帧共享相同的噪声级别。这种有限的噪声组合使得模型在推理时无法有效捕捉所需的噪声级别。因此,为了实现上述自回归生成能力,必须在训练时为不同帧使用不同的噪声级别。本文采用了DiffusionForcing方法,即在不同帧中独立且均匀地采样噪声级别,即。通过这种训练过程的转变,模型能够在历史帧中学习所有可能的噪声级别组合,从而在推理时具备因果展开的灵活性。
虽然实现因果生成对于向交互式世界模型的转变至关重要,但这些经过改造的因果扩散模型仍然无法提供基于动作的生成结果。已有大量工作[1,3,63]通过视频级条件来引入动作条件,即将整个动作序列编码为一个单一的嵌入,类似于文本到视频生成模型中的文本嵌入。除了缺乏进行帧级细粒度动作条件预测的能力之外,这种全局条件本质上也与自回归生成不兼容,因为动作是逐步到达的,必须在推理过程中以在线方式处理。
本文选择通过结构修改来强制进行帧级条件处理,其中每个动作在注入到相应帧之前被独立编码。当预测第帧时,将的嵌入加到模型在时间位置的表示上,使得每一帧都能直接基于其前一个动作进行条件生成。在实践中,我们通过一个轻量级的多层感知机将动作输入注入到去噪网络中。通过这种帧级条件机制,动作输入在时间上与生成目标在帧级对齐,从而为交互式环境中的精确细粒度控制打开了可能性。
为了为生成帧中的控制程度增加灵活性,将无分类器引导(classifier-freeguidance)扩展到自回归设置中的动作条件生成中,提出了因果动作引导(CausalActionGuidance)。在无分类器引导中,模型同时学习条件分布的分数函数和其无条件对应项,因此在采样时可以通过放大两个分数函数之间的差异来实现更强的控制。在该设置中,分数函数接收带噪观测序列、动作序列和噪声级别序列作为输入,其条件变量为最近的动作。因此,模型应能够捕捉条件分布的分数函数:
以及其无条件对应项(最近动作被遮蔽):
因此,模型应能够在丢弃最新动作的情况下对当前帧进行去噪。为了在自回归设置中实现动作引导的可能性,提出了一种轻量但有原则的方法。在训练过程中,对于每个时间步,动作输入以固定概率被独立丢弃:
这种dropout机制直观上鼓励模型学习在动作序列所有可能子集条件下的分数函数。因此,模型被迫学习当前动作对预测转移的影响,从而在测试时实现无分类器引导。在推理时,可以通过以下方式引导模型的生成结果:
其中是引导尺度。该公式在测试时提供了对细粒度动作变化响应的灵活性。通过这种变换,模型更好地与世界建模的核心目标保持一致——不仅仅是捕捉平均行为趋势,而是支持基于代理人最近动作的反事实推理。
本文提出了Vid2World,这是一种将全序列、非因果、被动视频扩散模型转化为自回归、交互式、动作条件世界模型的通用方法。通过视频扩散因果化,开启了模型进行因果生成的能力;通过因果动作引导,我们将动作引导引入到交互式设置中。在算法1和算法2中提供了本文方法的伪代码。
作为Vid2World的概念验证,本文采用DynamiCrafter作为基础模型,它是一个基于U-Net的最先进潜在视频扩散模型,预训练于大规模网络级视频数据集,拥有11亿个可训练参数。我们在多个领域中展示了本文方法的有效性,涵盖现实世界的机器人操作和游戏仿真中的高动态3D场景。通过视频预测结果以及离线策略评估等下游任务,我们展示了Vid2World不仅获得了与真实数据高度相似和真实感强的模型,还获得了能够在序列决策中辅助下游任务的模型。
机器人操作是世界模型的理想测试平台,要求在现实世界物理约束下进行时间一致、动作条件的预测,这些预测既要在视觉上真实,又要在因果上可信。这些严格的要求使其成为评估模型可控性和保真度的严苛且实际相关的基准。
设置。本文使用RT-1数据集,这是一个涵盖多种操作任务(包括抓取、放置、操作抽屉等)的现实世界机器人经验集合。对于我们提出的方法,我们考虑两种推理设置:
Vid2World-NAR:类似于传统视频扩散模型和基线方法,我们在所有帧上使用相同的噪声水平进行去噪,同时生成整个序列,即非自回归方式;
Vid2World:我们以自回归方式对每一帧进行去噪,并结合动作引导。
参考DiffusionForcing,在自回归展开过程中,在生成过程中向历史帧添加统一的小噪声。
基线。为验证本文方法作为迁移方法的有效性,采用多种基线,这些基线基于相同的基础模型但使用不同的转换方法,包括动作条件微调、语言条件微调、ControlNet和分类器引导。按照基线实现中的训练和验证集划分进行模型训练。
评估指标。对于评估指标,本文采用常用的视频生成指标,用于衡量模型生成结果与真实帧序列在像素级或语义上的相似性。这些指标包括FréchetVideoDistance(FVD)、FréchetImageDistance(FID)、结构相似度指数(SSIM)、学习感知图像块相似度(LPIPS)和峰值信噪比(PSNR)。
结果。如下表1所示,Vid2World在非自回归和自回归设置下均展现出强大的量化性能,表现优于或可与其他迁移方法相媲美。在非自回归采样设置下,Vid2World以显著优势超越所有已有方法。即使在其他基线方法无法适用的自回归设置下,Vid2World仍保持了与这些方法相当甚至更优的性能,展示了其在视频预测方面的强大能力。
应用:Real2Sim策略评估。为了展示本文方法在交互式环境中辅助下游任务的能力,进行了Real2Sim策略评估实验,遵循SIMPLER。在该设置中,希望通过与世界模型交互而不是与真实世界交互,来获取给定策略的性能表现。该设置要求世界模型具备执行自回归展开的能力,一个表现良好的世界模型应能够通过自回归地展开不同策略给出的动作,区分失败案例与成功案例。该过程总结于算法3中。采用三个策略模型:RT-1(Begin)、RT-1(15%)和RT-1(Converged),它们是从RT-1的不同训练阶段提取的检查点。我们在“关闭抽屉”任务上进行评估,展开的时间步为,滑动窗口长度为。为简便起见,使用人工评估作为验证器,标注轨迹是否成功。如下图4所示,Vid2World能够可靠地反映不同策略之间的性能差距,紧密追踪它们在现实世界中的成功趋势。
游戏仿真是世界建模的关键应用领域,近年来在文献中受到越来越多的关注。在该设置中,世界模型的交互性尤为关键,因为它为构建神经游戏引擎——即通过学习的动态支持实时用户交互的模型——打开了大门。这是一个特别具有挑战性的领域,因为其本质上具有复杂的时间动态,并且动作对视觉转换有强烈影响,包括快速且不连续的视角变化、丰富接触的物体交互以及细粒度的运动模式,要求模型能够对复杂、因果交织的视觉-时序线索进行推理。
设置。为了探索本文方法在高度动态且视觉复杂的3D环境中的能力,将Vid2World应用于著名视频游戏《反恐精英:全球攻势(CS:GO)》。使用Pearce等人提出的在线数据集,该数据集包含来自DustII地图的550万帧(95小时)真人在线游戏画面。为了与基线方法进行可比性评估,遵循DIAMOND的设置,使用完全相同的50万帧保留集(对应500个片段,约8小时)进行测试。DIAMOND是一种最先进的自回归世界模型,它基于固定数量的历史观测和动作生成下一帧。采用前文中的评估指标,衡量生成视频与真实视频在视觉和语义上的相似性。由于DIAMOND需要4帧作为条件输入,使用四帧历史帧初始化,并自回归地生成帧,直到达到16帧的序列长度。评估指标仅在预测帧上计算,不包括用于条件输入的帧。
结果。如下表2所示,Vid2World在所有评估指标上均显著优于DIAMOND的两种配置,包括在FVD上相对提高81. 8%,在FID上提升77. 2%,相较于最优基线配置。这些结果展示了本文方法在视觉保真度和语义一致性方面的卓越性能,显示了将视频扩散模型用于交互式神经游戏引擎的潜力。
为了验证本文提出方法的有效性,我们在自回归设置下进行了消融实验。关注两个问题:(1)模型在交互式视频预测设置中执行动作引导的能力有多重要?(2)所提出的混合权重迁移是否能在视频预测任务中带来更好的迁移效果?本文在RT-1数据集上进行消融实验,所有模型均训练30k次梯度步,以控制计算预算。考虑两种模型变体:
Vid2Worldw/oActionGuidance:该变体在训练时未使用动作dropout,导致模型只能在提供完整动作序列作为确定性条件时进行生成;
**Vid2Worldw/oMixedweighttransfer(MWT)**:该变体使用shift权重迁移初始化时间卷积权重进行训练。
如下表3所示,这两种技术在Vid2World的卓越性能中都起到了关键作用。
本研究将被动视频扩散模型转化为交互式世界模型。提出了Vid2World,引入了两个关键机制——视频扩散因果化和因果动作引导——以支持自回归、动作条件的生成。大量实验表明,Vid2World在视频预测任务中达到了最先进的性能,同时也有效支持了下游决策任务。尽管本研究标志着一次成功的初步尝试,但仍有大量空间可供进一步探索。首先,由于计算资源限制,仅采用了相对轻量的视频扩散模型作为基础模型,我们预期探索更大规模的模型有望带来更优性能。其次,训练过程仍然相对耗时。期待未来的方法能够在更少的训练步数下实现相当或更优的性能。
[1]Vid2World:CraftingVideoDiffusionModelstoInteractiveWorldModels
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录