【他山之石】CVPR-悉尼大学提出LaVin-DiT：扩散Transformer+时空VAE，20+ 视觉任务统一SOTA框架

发布日期: 2025-07-06

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！
来源：PaperEveryday
仅用于学术分享，若侵权请联系删除
引入时空变分自编码器：为处理视觉数据的高维性，LaVin-DiT纳入时空变分自编码器（ST-VAE）。它能将图像和视频数据编码到连续潜在空间，在保留关键时空特征的同时实现紧凑表示，降低计算需求，提升效率，且不影响模型捕捉复杂模式的能力。
提出联合扩散Transformer：在生成建模方面，LaVin-DiT对现有扩散Transformer改进，提出具有全序列联合注意力的联合扩散Transformer（J-DiT）。该模块通过并行去噪步骤合成视觉输出，减少序列依赖性，提高处理效率，还能维持视觉任务所需的空间连贯性。
采用上下文学习：为支持统一的多任务训练，LaVin-DiT引入上下文学习。输入-目标对作为任务上下文，引导扩散Transformer在潜在空间中使输出与特定任务对齐。
使用3D旋转位置编码：LaVin-DiT采用3D旋转位置编码（3DRoPE），将视觉数据视为连续序列，用3D坐标表示位置，为各种视觉任务提供统一且准确的时空位置编码，克服了1D位置嵌入在捕捉时空位置上的局限。
计算机视觉包括一系列任务，如目标检测和全景分割，这些任务通常由为特定输入-目标映射设计的专用模型处理。虽然这种专业化在单个任务中有效，但限制了模型在多个任务或不同视觉数据上的适应性和可扩展性。为了克服这一限制，作者旨在设计一个条件生成框架，将多个视觉任务统一在一个紧密结合的模型中。具体来说，给定一个查询（例如，一幅图像或一段视频），该框架在一组输入-目标对的条件下，生成相应的预测，以逼近目标。这些条件对提供了任务定义和指导，使模型能够根据提供的示例灵活地适应不同的任务。形式上，目标是对条件分布进行建模。
如图2（a）所示，所提出的大型视觉扩散Transformer（LaVin-DiT）框架将时空变分自编码器（ST-VAE）与联合扩散Transformer相结合，以统一多个视觉任务。给定一个视觉任务，例如全景分割，作者首先采样一组输入-目标对作为任务定义。然后，将这组对和其他视觉示例输入到ST-VAE中，编码为潜在表示。随后，将编码后的表示进行分块并展开为序列格式。这组对和输入视觉数据形成条件潜在表示，而目标则用随机高斯噪声进行扰动，得到噪声潜在表示。和都被输入到联合扩散Transformer（J-DiT）中，J-DiT对进行去噪，在共享潜在空间中恢复干净的潜在表示。最后，恢复的潜在表示通过ST-VAE解码器，在原始像素空间中重建目标。下面作者详细介绍ST-VAE和J-DiT的技术细节。
在原始像素空间中处理视觉数据计算成本很高。为了解决这个问题，作者提出使用时空变分自编码器（ST-VAE）。ST-VAE能够有效地压缩空间和时间信息，并将其从像素空间编码到紧凑的潜在空间中。如图2（b）所示，ST-VAE使用因果3D卷积和反卷积来压缩和重建视觉数据。它总体包括一个编码器、一个解码器和一个潜在正则化层。这些组件被结构化为四个对称阶段，交替进行2倍下采样和上采样。前两个阶段在空间和时间维度上都进行操作，而最后一个阶段仅在空间维度上起作用，实现了4×8×8的有效压缩，降低了计算负载。此外，作者应用Kullback-Leibler（KL）约束来正则化高斯潜在空间。
为了防止未来信息泄漏及其对时间预测的不利影响，作者在时间卷积空间的起始位置对所有位置进行填充。另外，为了支持图像和视频处理，作者将输入视频的第一帧单独处理，仅在空间上进行压缩以保持时间独立性。后续帧则在空间和时间维度上都进行压缩。ST-VAE的编码器将输入压缩到低维潜在空间，通过解码过程实现重建。ST-VAE的训练分两个阶段进行：作者首先仅在图像上进行训练，然后在图像和视频上联合训练。在每个阶段，作者使用均方误差、感知损失和对抗损失的组合来优化模型。
扩散Transformer（DiT）已成为一种强大的生成建模方法。作者的联合扩散Transformer（J-DiT）基于DiT构建，但进行了修改以支持任务条件生成。与原始DiT的一个关键区别是，作者考虑了两种概念上不同的潜在表示。条件潜在表示是干净的，而目标潜在表示受到高斯噪声的扰动，导致两者可能具有不同的值范围。为了处理这种差异并改善任务特定信息和视觉信息之间的对齐，作者为条件和目标潜在构建了单独的补丁嵌入。每个嵌入层使用2×2的补丁大小，以便为每种潜在类型定制表示。如图2所示，采样的时间步，以及条件和目标序列，被输入到一系列扩散Transformer层中。基于MM-DiT架构，作者引入了条件和目标特定的自适应RMS归一化（AdaRN），以独立调制每个表示空间。这通过在AdaRN层中为条件和目标设置不同的时间步嵌入来实现。
全序列联合注意力：全序列联合注意力是作者Transformer层的关键，它同时处理条件和噪声目标序列，以增强任务特定的对齐。如图2（c）所示，条件和目标序列被线性投影、连接，然后由双向注意力模块处理，使它们能够在各自的空间中操作，同时考虑对方。为了提高速度和内存效率，作者用分组查询注意力（grouped-queryattention）代替多头注意力，分组查询注意力将查询头分组，共享一组键值头。这种方法在减少参数的同时保留了表达能力，性能与标准多头注意力非常接近。此外，为了在更大的模型和更长的序列中稳定训练，作者在查询-键点积之前添加QK-Norm，以控制注意力熵的增长。遵循相关工作，作者还在每个注意力层和前馈神经网络（FFN）层之后应用三明治归一化，以在残差连接中保持激活幅度。
3D旋转位置编码：与一些方法不同，作者认为将视觉数据建模为一维序列不是最优选择，因为一维位置嵌入在捕捉精确的时空位置方面存在局限性。相反，通过将多个图像-注释对或视频片段视为单个连续序列，作者可以使用3D旋转位置编码（3DRoPE）简洁地表示时空关系。这样，视频中的每个位置都可以用一个3D坐标表示。通过引入3DRoPE，作者为各种视觉任务提供了统一且准确的位置编码时空表示。
J-DiT的训练过程：作者在潜在空间中使用流匹配（flowmatching）方法训练J-DiT。具体来说，给定一个表示和噪声，流匹配定义了一个基于线性插值的前向过程：，其中时间步。这个前向过程诱导了一个随时间变化的速度场，它沿着线性路径朝着的方向驱动流。速度场定义了一个常微分方程（ODE）：。作者使用由参数化的J-DiT来预测将噪声转换为干净潜在表示的速度场。流匹配的训练目标是直接回归目标速度场，得到条件流匹配（CFM）损失：
J-DiT的生成过程：在J-DiT训练完成后，作者使用它从噪声分布向表示分布进行积分，以生成新的表示。具体来说，从时的噪声开始，作者将学习到的J-DiT向后积分到，以获得表示。例如，使用欧拉方法，作者将时间间隔离散化为步，步长为，表示时间上的向后积分。在每一步，作者更新时间和生成的表示如下：
其中，，，。通过迭代应用这些更新，作者获得一个新的表示，用于后续ST-VAE的解码过程。
在完成LaVin-DiT的训练后，该模型变得通用，可应用于一系列下游任务。具体来说，当为任何选定的任务给定一个查询（例如，一幅图像或一段视频）时，作者随机采样一组定义该任务的输入-目标对。这些对与视觉输入和高斯噪声分量一起被输入到联合扩散Transformer（J-DiT）中。在J-DiT中，这些元素被处理以生成潜在表示。最后，这个潜在表示通过ST-VAE解码器，转换到原始像素空间，产生所需的预测。为了更好地理解这个推理过程，请参考图2（a）。
本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。
收藏，分享、在看，给个三连击呗！