ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」


ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

自OpenAI发布Sora以来,AI视频生成技术进入快速爆发阶段。凭借扩散模型强大的生成能力,我们已经可以看到接近现实的视频生成效果。但在模型逼真度不断提升的同时,速度瓶颈却成为横亘在大规模应用道路上的最大障碍。
当前最好的视频生成模型Wan2.1、HunyuanVideo等,在单张H100GPU上生成一个5秒的720p视频往往需要耗时30分钟以上。主要瓶颈出现在3DFullAttention模块,约占总推理时间的80%以上。
为了解决这个问题,来自加州伯克利和MIT的研究者们提出了联合提出了一种新颖的解决方案:SparseVideoGen。
论文标题:SparseVideoGen:AcceleratingVideoDiffusionTransformerswithSpatial-TemporalSparsity
论文链接:https ://arxiv.org/abs/2502.01776
代码:https ://github.com/svg-project/Sparse-VideoGenn
网页:https ://svg-project.github.io/
这是一种完全无需重新训练模型的视频生成加速方法。通过挖掘注意力机制中的空间与时间稀疏性,配合自适应稀疏选择与算子优化,成功将推理时间减半。令人惊讶的是,它生成的视频与DenseAttention方法相比,几乎没有肉眼可见的差别,保持极高的像素保真度(PSNR=29)。SparseVideoGen也是第一个能够达到这种级别的像素保真度的方法。

扩散式视频生成的性能瓶颈
扩散模型(DiffusionModels)已经成为图像与视频生成的主流方案。特别是基于Transformer架构的VideoDiffusionTransformers(DiTs),在建模长时空依赖与视觉细节方面具有显著优势。然而,DiTs模型的一大特征——3DFullAttention——也带来了巨大的计算负担。每个token不仅要考虑当前帧的空间上下文,还要参与跨帧的时间建模。随着分辨率和帧数的提升,Attention的计算复杂度以二次增长,远高于普通图像生成模型。
例如,HunyuanVideo和Wan2.1在1×H100上生成5秒720p视频需要29分钟,其中Attention计算占据超过80%的时间。如此高昂的代价,大大限制了扩散视频模型在真实世界中的部署能力。
SparseVideoGen的核心设计
抓住Attention中的稀疏性

SpatialHead-关注空间邻近的Token
SpatialHead主要关注相同帧及相邻帧中的Token,其AttentionMap呈块状布局,集中于主对角线附近。它负责建模局部空间一致性,使得图像生成在帧内连贯。
TemporalHead-关注不同帧中的相同Token
TemporalHead主要用于捕捉帧间的Token关系。其AttentionMap呈斜线式布局,并具有恒定步长。这种机制确保了时间一致性,即同一物体在多个帧中保持连贯。
这种Attention模式的解构,帮助模型在计算过程中识别哪些token是「重要的」,哪些可以忽略,从而构建稀疏注意力策略。
实现无损像素保真度的关键
动态自适应的稀疏策略
尽管SpatialHead和TemporalHead分别解决了空间和时间一致性问题,但真正实现无损像素保真度的关键在于最优地组合它们。
在不同的去噪步骤(denoisingsteps)以及不同的生成提示(prompts)下,最优的稀疏策略可能会发生显著变化。因此,静态的稀疏模式无法保证最佳效果,必须采用动态、自适应的策略。
为此,SparseVideoGen采用了一种在线稀疏模式优化方法(OnlineProfiling),通过动态的决定AttentionMask,用于动态决定每个注意力头所采用的稀疏策略。
其方法如下:
1.每一步推理过程中,随机采样极少量(仅0.05%,约64个)的QueryToken;
2.分别使用Spatial和Temporal两种稀疏模式计算其注意力结果,并与DenseAttention对比误差;
3.为每个AttentionHead选择误差最小的稀疏模式。
仅使用64个QueryToken(占全部token总数的0.1%),即可准确预测最优的稀疏模式。这种轻量级探索+局部误差拟合的策略,几乎不增加额外计算开销(29)且实现有效加速。
从算子层优化稀疏计算
LayoutTransformation+Kernel加速
尽管利用稀疏性能够显著提升Attention速度,但如何达到最优的加速效果仍然是一大问题。尤其是TemporalHead的非连续内存访问模式仍然对GPU的性能构成挑战。
TemporalHead(时间注意力头)需要跨多个帧访问相同空间位置的token。然而,传统的张量布局通常是以帧为主(frame-major)的顺序存储数据,即同一帧的所有token连续存储,而不同帧的相同位置的token则分散开来。
为了解决这一问题,SparseVideoGen引入了一种硬件友好的布局转换方法。该方法通过将张量从帧为主的布局转换为token为主(token-major)的布局,使得TemporalHead所需的token在内存中呈现连续排列,从而优化了内存访问模式。具体而言,这种转换通过转置操作实现,将原本分散的token重组为连续的内存块,符合GPU的内存访问特性。
这种布局转换不仅提高了内存访问效率,还使得稀疏注意力计算能够更好地利用GPU的并行计算能力。实验结果表明,经过布局转换后,SparseVideoGen在TemporalHead上实现了接近理论极限的加速效果,显著提升了整体推理速度。
除了注意力机制的优化,SparseVideoGen还对Query-KeyNormalization(QK-Norm)和RotaryPositionEmbedding(RoPE)进行了定制化优化,以进一步提升推理效率。在标准实现中,QK-Norm和RoPE的计算开销较大,成为推理过程中的性能瓶颈之一。为此,研究者对这两个模块进行了算子优化,QK-Norm的吞吐量在所有场景下均优于PyTorch的标准实现,平均加速比为7.4倍,。同样地,定制化的RoPE实现也在所有帧数下表现出更高的吞吐量,平均加速比为14.5倍。
实验成果
媲美原模型的画质,显著的推理速度提升
在Wan2.1、HunyuanVideo和CogVideoX上,SparseVideoGen展现出强大性能:
1.在H100上将HunyuanVideo的推理时间从约30分钟降至15分钟以内;将Wan2.1的推理时间从30分钟将至20分钟;
2.保持PSNR稳定在29dB以上,接近DenseAttention输出画质;
3.可无缝接入多种现有SOTA视频生成模型(Wan2.1、CogVideoX、HunyuanVideo);
4.同时支持T2V(文本生成视频)和I2V(图像生成视频)任务。
在未来,随着视频扩散模型的复杂度进一步上升,如何在不损失视觉质量的前提下提升效率,将是核心问题之一。SVG的工作展示了一条重要方向:结构理解+自适应稀疏性可能成为视频生成推理优化的黄金组合。
这一研究也在提示我们:视频生成模型不必一味追求更大,理解其内部结构规律,或许能带来比扩容更可持续的性能突破。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录