ICML 2025 | 视频生成模型无损加速两倍，秘诀竟然是「抓住attention的时空稀疏性」

发布日期: 2025-05-07

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

自OpenAI发布Sora以来，AI视频生成技术进入快速爆发阶段。凭借扩散模型强大的生成能力，我们已经可以看到接近现实的视频生成效果。但在模型逼真度不断提升的同时，速度瓶颈却成为横亘在大规模应用道路上的最大障碍。
当前最好的视频生成模型Wan2.1、HunyuanVideo等，在单张H100GPU上生成一个5秒的720p视频往往需要耗时30分钟以上。主要瓶颈出现在3DFullAttention模块，约占总推理时间的80%以上。
为了解决这个问题，来自加州伯克利和MIT的研究者们提出了联合提出了一种新颖的解决方案：SparseVideoGen。
论文标题：SparseVideoGen:AcceleratingVideoDiffusionTransformerswithSpatial-TemporalSparsity
论文链接：https ://arxiv.org/abs/2502.01776
代码：https ://github.com/svg-project/Sparse-VideoGenn
网页：https ://svg-project.github.io/
这是一种完全无需重新训练模型的视频生成加速方法。通过挖掘注意力机制中的空间与时间稀疏性，配合自适应稀疏选择与算子优化，成功将推理时间减半。令人惊讶的是，它生成的视频与DenseAttention方法相比，几乎没有肉眼可见的差别，保持极高的像素保真度(PSNR=29)。SparseVideoGen也是第一个能够达到这种级别的像素保真度的方法。

扩散式视频生成的性能瓶颈
扩散模型（DiffusionModels）已经成为图像与视频生成的主流方案。特别是基于Transformer架构的VideoDiffusionTransformers（DiTs），在建模长时空依赖与视觉细节方面具有显著优势。然而，DiTs模型的一大特征——3DFullAttention——也带来了巨大的计算负担。每个token不仅要考虑当前帧的空间上下文，还要参与跨帧的时间建模。随着分辨率和帧数的提升，Attention的计算复杂度以二次增长，远高于普通图像生成模型。
例如，HunyuanVideo和Wan2.1在1×H100上生成5秒720p视频需要29分钟，其中Attention计算占据超过80%的时间。如此高昂的代价，大大限制了扩散视频模型在真实世界中的部署能力。
SparseVideoGen的核心设计
抓住Attention中的稀疏性

SpatialHead-关注空间邻近的Token
SpatialHead主要关注相同帧及相邻帧中的Token，其AttentionMap呈块状布局，集中于主对角线附近。它负责建模局部空间一致性，使得图像生成在帧内连贯。
TemporalHead-关注不同帧中的相同Token
TemporalHead主要用于捕捉帧间的Token关系。其AttentionMap呈斜线式布局，并具有恒定步长。这种机制确保了时间一致性，即同一物体在多个帧中保持连贯。
这种Attention模式的解构，帮助模型在计算过程中识别哪些token是「重要的」，哪些可以忽略，从而构建稀疏注意力策略。
实现无损像素保真度的关键
动态自适应的稀疏策略
尽管SpatialHead和TemporalHead分别解决了空间和时间一致性问题，但真正实现无损像素保真度的关键在于最优地组合它们。
在不同的去噪步骤（denoisingsteps）以及不同的生成提示（prompts）下，最优的稀疏策略可能会发生显著变化。因此，静态的稀疏模式无法保证最佳效果，必须采用动态、自适应的策略。
为此，SparseVideoGen采用了一种在线稀疏模式优化方法（OnlineProfiling），通过动态的决定AttentionMask，用于动态决定每个注意力头所采用的稀疏策略。
其方法如下：
1.每一步推理过程中，随机采样极少量（仅0.05%，约64个）的QueryToken；
2.分别使用Spatial和Temporal两种稀疏模式计算其注意力结果，并与DenseAttention对比误差；
3.为每个AttentionHead选择误差最小的稀疏模式。
仅使用64个QueryToken（占全部token总数的0.1%），即可准确预测最优的稀疏模式。这种轻量级探索+局部误差拟合的策略，几乎不增加额外计算开销（29）且实现有效加速。
从算子层优化稀疏计算
LayoutTransformation+Kernel加速
尽管利用稀疏性能够显著提升Attention速度，但如何达到最优的加速效果仍然是一大问题。尤其是TemporalHead的非连续内存访问模式仍然对GPU的性能构成挑战。
TemporalHead（时间注意力头）需要跨多个帧访问相同空间位置的token。然而，传统的张量布局通常是以帧为主（frame-major）的顺序存储数据，即同一帧的所有token连续存储，而不同帧的相同位置的token则分散开来。
为了解决这一问题，SparseVideoGen引入了一种硬件友好的布局转换方法。该方法通过将张量从帧为主的布局转换为token为主（token-major）的布局，使得TemporalHead所需的token在内存中呈现连续排列，从而优化了内存访问模式。具体而言，这种转换通过转置操作实现，将原本分散的token重组为连续的内存块，符合GPU的内存访问特性。
这种布局转换不仅提高了内存访问效率，还使得稀疏注意力计算能够更好地利用GPU的并行计算能力。实验结果表明，经过布局转换后，SparseVideoGen在TemporalHead上实现了接近理论极限的加速效果，显著提升了整体推理速度。
除了注意力机制的优化，SparseVideoGen还对Query-KeyNormalization（QK-Norm）和RotaryPositionEmbedding（RoPE）进行了定制化优化，以进一步提升推理效率。在标准实现中，QK-Norm和RoPE的计算开销较大，成为推理过程中的性能瓶颈之一。为此，研究者对这两个模块进行了算子优化，QK-Norm的吞吐量在所有场景下均优于PyTorch的标准实现，平均加速比为7.4倍，。同样地，定制化的RoPE实现也在所有帧数下表现出更高的吞吐量，平均加速比为14.5倍。
实验成果
媲美原模型的画质，显著的推理速度提升
在Wan2.1、HunyuanVideo和CogVideoX上，SparseVideoGen展现出强大性能：
1.在H100上将HunyuanVideo的推理时间从约30分钟降至15分钟以内；将Wan2.1的推理时间从30分钟将至20分钟；
2.保持PSNR稳定在29dB以上，接近DenseAttention输出画质；
3.可无缝接入多种现有SOTA视频生成模型（Wan2.1、CogVideoX、HunyuanVideo）；
4.同时支持T2V（文本生成视频）和I2V（图像生成视频）任务。
在未来，随着视频扩散模型的复杂度进一步上升，如何在不损失视觉质量的前提下提升效率，将是核心问题之一。SVG的工作展示了一条重要方向：结构理解+自适应稀疏性可能成为视频生成推理优化的黄金组合。
这一研究也在提示我们：视频生成模型不必一味追求更大，理解其内部结构规律，或许能带来比扩容更可持续的性能突破。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin.com