港科大提出Turbo2K！2K视频生成20倍加速+VAE蒸馏，4K级画质触手可及！

发布日期: 2025-04-22

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

最新论文解读系列
论文名：Turbo2K:TowardsUltra-EfficientandHigh-Quality2KVideoSynthesis
论文链接：https ://arxiv.org/pdf/2504.14470
开源代码：https ://jingjingrenabc.github.io/turbo2k/
扩散变压器（DiffusionTransformers，DiTs）在生成视觉上引人注目的图像和视频方面已展现出卓越的能力，这得益于它们在参数和数据方面的可扩展性。然而，随着显示技术的发展和消费者对超高清内容的期望激增，迫切需要能够生成高分辨率视频（如2K内容）的生成模型，尽管由于训练和推理过程中涉及的巨大计算开销，实现这一目标仍然具有挑战性。
随着消费者对超清晰视觉效果的期望不断提高，对视频合成的需求也在增加。虽然扩散变压器（DiffusionTransformers，DiTs）在高质量视频生成方面已展现出卓越的能力，但由于内存和处理成本呈二次方增长，将其扩展到分辨率在计算上仍然难以实现。在这项工作中，我们提出了Turbo2K，这是一个高效且实用的框架，用于生成细节丰富的视频，同时显著提高训练和推理效率。首先，Turbo2K在高度压缩的潜在空间中运行，降低了计算复杂度和内存占用，使高分辨率视频合成成为可能。然而，变分自编码器（VAE）的高压缩比和有限的模型大小对生成质量施加了限制。为了缓解这一问题，我们引入了一种知识蒸馏策略，使较小的学生模型能够继承更大、更强大的教师模型的生成能力。我们的分析表明，尽管潜在空间和架构存在差异，但DiTs在其内部表示中表现出结构相似性，便于进行有效的知识转移。其次，我们设计了一个分层的两阶段合成框架，该框架首先在较低分辨率下生成多级特征，然后指导高分辨率视频生成。这种方法确保了结构连贯性和细粒度的细节优化，同时消除了冗余的编码-解码开销，进一步提高了计算效率。Turbo2K实现了最先进的效率，以显著降低的计算成本生成5秒的视频。与现有方法相比，Turbo2K的推理速度提高了多达，使高分辨率视频生成更具可扩展性，更适用于实际应用。
图4：Turbo2K框架概述。左：异构模型蒸馏使学生模型的内部表示与更大的教师模型对齐，以增强语义理解和细节丰富度。右：两阶段合成首先生成低分辨率（LR）视频，提取语义特征以指导高分辨率（HR）视频的生成。
生成视频由于需要高级语义规划和细粒度细节合成而面临重大挑战。此外，训练这样一个模型需要大量的计算资源。为了实现高效训练，我们首先通过使模型的内部表示与以较低压缩率运行的更大教师模型的内部表示对齐来增强该模型的内部表示。这种对齐提高了语义理解和细节丰富度，如图4的左半部分所示。在增强的蒸馏模型的基础上，我们引入了一个两阶段合成管道，其中最终的视频生成由从低分辨率（LR）生成过程中提取的语义特征引导。这种引导机制确保了结构连贯性和精细细节丰富度，如图4的右半部分所示。
高分辨率视频生成在计算上仍然很密集，这主要是由于DiT的全注意力机制的计算量与令牌数量呈二次方关系。例如，如图1所示，使用CogVideoX-5B生成包含49帧的2K分辨率视频，在NVIDIAA100GPU上每个去噪步骤大约需要100秒。为了减轻计算开销，我们采用LTX-视频[12]的VAE设计，该设计将令牌数量减少。然而，尽管效率有所提高，但与更大的视频扩散模型[19,29]相比，其生成能力仍然受到显著限制。一种直接的提高生成性能的策略是以数据为中心的微调，即对模型在精心策划的数据集上进行进一步训练。然而，在适度的计算预算下，这种方法对输出质量的提升有限（见表4和图6）。这些结果表明，仅仅增加训练数据量不足以缩小LTX和大规模视频扩散模型之间的性能差距，凸显了更有效知识转移机制的必要性。
图2：不同视频扩散模型在不同时间步的内部特征结构可视化。这些特征表现出相似的潜在语义结构。
为应对这一挑战，我们引入了一种蒸馏框架，在该框架中，训练一个基于轻量级LTX的学生模型来模拟更强大的教师模型的行为。尽管潜在空间和架构设计存在差异，但学生模型和教师模型的内部表示呈现出结构相似的语义模式（图2）。这表明，尽管特征编码存在差异，但两个模型都以类似的方式捕获和组织语义信息。利用这种结构对齐，我们可以有效地将知识从教师模型蒸馏到学生模型，使学生模型即使在不同的潜在空间中也能继承教师模型卓越的语义理解和生成能力。
视频帧首先由教师模型和学生模型的变分自编码器（VAE）进行编码，分别生成潜在表示和。从各自的文本编码器中提取的文本嵌入被注入到模型中；为简单起见，我们在下面的符号表示中省略了它们。教师模型的含噪输入潜在表示是通过对应用高斯噪声得到的，具体如下：
其中控制扩散时间步的噪声水平，该时间步是按照基于流匹配的模型[38,12]随机采样得到的。含噪的教师模型潜在表示首先通过一个块嵌入层，然后经过教师模型中的所有DiT块，最终生成倒数第二层的教师引导特征。类似地，学生模型的潜在表示使用与公式1相同的过程添加噪声，然后通过学生模型的DiT扩散网络，得到学生模型的特征表示。为了使学生模型的特征表示与教师模型的特征表示对齐，我们将蒸馏损失定义为
其中是一个投影网络，由空间和时间卷积以及插值层组成，用于使学生模型特征空间中的令牌数量与教师模型的对齐，并将学生模型的特征空间映射到教师模型的特征空间。除了蒸馏损失之外，学生模型还通过扩散损失进行优化，如下所示
最终目标公式如下
讨论。我们研究了为教师模型和学生模型选择扩散时间步的各种策略。一种初始方法是为学生模型随机采样，同时将教师模型的时间步固定在最终去噪步骤。这种设计的灵感来自图2中的可视化结果，该结果表明教师模型在最终步骤的特征呈现出最清晰的结构模式。然而，这种策略带来的性能提升有限，可能是因为教师模型在最终步骤的表示已经接近干净数据分布。因此，蒸馏过程变得类似于直接的数据微调，对中间去噪动态的洞察有限。相比之下，在相同的时间步同步教师模型和学生模型会显著提高生成质量。这表明在相应的扩散步骤上对齐它们的特征可以提供更丰富、更细粒度的监督，使学生模型不仅能学习到干净的最终状态表示，还能学习到教师模型的渐进去噪轨迹。
虽然知识蒸馏使学生模型能够继承教师模型的语义理解和去噪轨迹，但由于纹理生成和语义规划的复杂性增加，直接合成分辨率的视频仍然是一项重大挑战。为了解决这个问题，我们引入了一个两阶段合成框架，其中高分辨率视频的生成由低分辨率合成过程引导。一种简单的解决方案是先生成低分辨率视频，然后在此基础上进行高分辨率视频的生成，这类似于生成式超分辨率技术[13,42,32]。然而，这种方法需要在推理过程中对低分辨率（LR）输出进行显式解码，并将其重新编码作为条件，这会导致相当大的计算开销。在处理高分辨率输入时，这个问题会更加严重，因为通常需要进行分块编码以满足内存限制。此外，这种解耦的范式往往会导致对低分辨率输入的过度依赖，限制了模型丰富细节的能力。因此，高分辨率（HR）输出相对于低分辨率输出的提升通常很小。
为了克服这些限制，我们提出了一种基于特征的引导方法，而不是直接在像素空间进行条件约束。具体来说，我们在低分辨率视频合成过程中从多个扩散变压器（DiT）块中提取中间特征表示，并将其用作高分辨率生成的语义引导。这种策略消除了推理过程中冗余的低分辨率解码和编码步骤，同时为高分辨率模型提供了丰富的结构信息。
如图4右侧所示，我们从选定的DiT块中提取多级特征表示，记为，其中表示选定的DiT块索引集。低分辨率（LR）引导特征提取的时间步固定在最终扩散步骤，因为该阶段的特征表示更稳定且语义清晰，如图2所示，这为高分辨率（HR）视频生成提供了有效的结构信息。在高分辨率视频合成过程中，提取的引导特征通过融合块注入到高分辨率生成分支中对应的DiT块中，如图4所示。由于低分辨率特征的空间分辨率低于高分辨率特征，我们首先使用插值方法对其进行上采样，然后进行局部卷积操作，使其分辨率与高分辨率特征相匹配。上采样后的引导特征与高分辨率特征相结合
特征由时间嵌入进行调制，如下所示
其中和是从时间嵌入中预测得到的调制参数。得到的融合特征随后被传递到后续的DiT块中。低分辨率模型保持固定，而高分辨率模型使用低分辨率模型的参数进行初始化，并使用类似于公式3的扩散损失进行训练
我们使用混元视频模型（HunyuanVideo，130亿参数）作为教师模型，因其具有强大的生成能力；使用LTX-视频模型（20亿参数）作为学生模型，因其具有高压缩比和高效率。具体实现细节请参考补充文件。
与文本到视频（T2V）模型的比较。我们在VBench-Long[16]基准数据集上评估了我们模型的生成性能，该基准数据集旨在衡量视频生成中的视觉质量和语义连贯性。如表1所示，我们的Turbo2K模型（40亿参数）实现了较高的视觉保真度和美学质量。图1和补充材料中的定性示例进一步展示了生成视频的语义一致性和视觉真实感。值得注意的是，Turbo2K在性能上超越了CogVideoX-5B模型，同时更轻量级且速度显著更快，凸显了我们方法的高效性。
表1：在VBench-Long基准测试中与最先进的开源模型的比较。
表2：分辨率下模型参数和推理时间的比较。OOM表示内存不足。
表2比较了不同方法的时间复杂度和模型大小。为了评估计算效率，我们报告了在A100GPU上每个去噪步骤的推理时间。对于49帧的2K分辨率视频生成，Turbo2K每个步骤的运行时间仅为5.08秒，比CogVideoX-2B快近，比CogVideoX-5B快超过。值得注意的是，现有方法在单个A100GPU的内存限制下无法生成121帧分辨率的视频。相比之下，Turbo2K成功完成了这项任务，每个去噪步骤的平均运行时间仅为22.8秒，展示了在高分辨率、长视频生成方面的卓越可扩展性和效率。
与视频超分辨率（VSR）模型的比较。我们将我们的方法与具有代表性的视频超分辨率（VSR）方法进行了全面比较，这些方法包括RealBasicVSR[2]、Upscale-a-Video[42]、VEhancer[13]和STAR[36]。我们使用MUSIQ[17]、NIQE[25]和CLIPIQA[30]来评估帧质量和细节丰富度；使用DOVER[33]的技术和美学分数来评估视频的视觉质量和一致性；并使用文献[16]中的一致性指标来衡量语义对齐度。定量结果见表3，定性比较见图5。RealBasicVSR在生成超出低分辨率输入中已有细节的能力方面表现有限。基于扩散的方法，如Upscale-a-Video、VEhancer和STAR，可以通过引入额外的细节来增强低分辨率内容。然而，它们的输出往往过度依赖于初始的低分辨率生成结果，导致结构不一致问题无法解决，例如面部区域的扭曲（如女性的嘴巴或猫的脸）。相比之下，我们的方法在保持高计算效率的同时，能够生成细节丰富且语义一致的结果。
表3：最先进的视频超分辨率（VSR）方法与我们的Turbo2K之间的帧和视频质量比较。
图5：与视频超分辨率方法的视觉比较。我们的方法生成的高分辨率结果具有更精细的细节和更强的语义连贯性。与严重依赖低分辨率输入的现有视频超分辨率方法不同，我们的方法在细化结构细节的同时保持语义对齐，确保了高分辨率合成中的保真度和一致性。
为了有效地评估各种设计选择，我们选择了120个包含丰富细节描述的文本提示，以便快速可靠地评估模型性能。异构模型蒸馏。我们分析了不同的模型微调配置对视频生成质量的影响。我们首先评估了数据微调，即学生模型直接使用流匹配损失进行训练，而不与教师模型进行显式的特征对齐。如表4和图6所示，与LTX-Video基线相比，这种方法并没有带来显著的改进，这表明简单的微调不足以提高生成性能。

图6：数据微调与所提蒸馏方法的视觉对比。视频格式对比请参阅我们的补充文件。
为了改进知识迁移，我们引入了一个蒸馏基础模型，其中学生网络的特征表示与教师模型的特征表示对齐。我们对两种配置进行了实验：（1）固定教师时间步：训练学生模型以匹配在提取的教师模型的特征。（2）同步时间步：在训练期间，教师模型的时间步与学生模型的时间步动态同步。如表4和图6所示，固定步长设置的增益有限，因为教师的最终步特征与干净数据非常相似，类似于数据微调。相比之下，同步时间步）显著提高了生成质量，证明了逐步特征对齐的有效性。
两阶段合成。我们比较了两种引导高分辨率（HR）生成的策略：（1）使用低分辨率（LR）潜在表示和（2）使用多级语义特征。第一种方法，遵循[2,13,36]，对高分辨率视频应用手工设计的降质处理以获得低分辨率输入，从中提取潜在表示以引导高分辨率模型。如图7所示，这种潜在引导策略往往会使高分辨率模型过度依赖低分辨率输入，限制了其生成更丰富、细粒度细节的能力。此外，由于需要单独的低分辨率解码和编码，它还引入了额外的计算开销。
图7：不同引导策略的视觉比较。（a）低分辨率结果，（b）使用潜在表示引导的结果，（c）时间步与高分辨率生成对齐的特征引导，以及（d）使用的特征引导。
对于基于特征的引导方法，我们探索了两种设置：（1）使低分辨率特征提取的时间步与高分辨率生成的时间步同步，以及（2）使用在提取的后期低分辨率特征。如图7和表5所示，同步设置导致语义连贯性较低，因为早期的低分辨率特征缺乏稳定的结构模式（见图2），因此提供的引导不可靠。相反，在后期扩散步骤提取低分辨率特征提供了语义丰富且结构精细的信号，有效地引导了高分辨率合成。这导致最终输出中细节生成得到增强，语义一致性得到改善。
表5：各种提取低分辨率（LR）引导方法的帧和视频质量比较。最佳结果以粗体突出显示。
我们提出了Turbo2K，这是一个超高效的框架，它结合了异构模型蒸馏和两阶段合成，以实现高质量的视频生成。我们的蒸馏方法有效地从大规模教师模型转移生成能力，而两阶段合成确保了细粒度细节和结构连贯性。消融实验证实，同步教师-学生时间步长可增强知识转移，基于特征的低分辨率（LR）引导通过保留细节和一致性来改进高分辨率（HR）合成。在VBench上的评估表明，Turbo2K优于像CogVideoX-5B这样的更大模型，生成视频的速度提高了倍，且质量更优。
感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术，欢迎一起交流学习💗～

ZejunCao

https://zejuncao.github.io/2025/04/22/1000000459-2247491887-3/