多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

发布日期: 2025-05-30

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

机器之心报道
编辑：Panda
近段时间，已经出现了不少基于扩散模型的语言模型，而现在，基于扩散模型的视觉-语言模型（VLM）也来了，即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫LaViDa，继承了扩散语言模型高速且可控的优点，并在实验中取得了相当不错的表现。
现目前，几乎所有流行的VLM都是基于大型语言模型（LLM）构建的，而这些模型采用的范式是自回归（AR），即按照从左到右的顺序逐一生成token。
在很多任务上，自回归模型都表现出色，不过缺点也仍然存在。首先，由于它们是按顺序生成，因此这个过程本质上难以并行化，从而导致推理速度缓慢。另外，由于它们是从左到右生成，因此难以处理需要双向上下文或结构约束的任务——例如文本填空。
例如，生成一首每行都以特定音节开头的诗歌，或从预定义JSON格式的图像中提取结构化信息——这些任务通常需要模型填充或协调整个序列中的内容。即使使用精心设计的提示词和演示，自回归模型仍然难以稳定地满足此类约束。
近段时间，离散的扩散模型（DM）开始崛起，甚至被许多人认为是自回归LLM的一种有力替代，比如我们曾报道过的首个8B扩散大语言模型LLaDA、扩散推理模型Dream7B以及首个商业级扩散LLMMercury。
不同于自回归LLM，扩散模型是将文本生成视为在离散token上的扩散过程。会有一个前向过程逐渐将离散文本token序列退化（corrupt）为一个掩码token序列。在推理过程中，则是从一个掩码token序列开始，并通过一个学习到的反向过程逐渐将其转换为一个有意义的文本token序列。
相比于自回归LLM，扩散模型具有多项理论优势，可直接解决自回归生成的局限性。
首先，自回归LLM的吞吐量是固定的——每次生成一个token；而扩散模型则可以通过调整扩散步骤的数量来灵活地控制速度与质量之间的平衡。此外，它们能够建模双向上下文，这使得它们非常适合文本填空等任务，从而实现更有效的约束生成和结构化的输出格式化——这些功能在视觉-语言环境中尤其有价值，因为其输出可能需要遵循特定的模式。
基于这些观察和实践，LaViDa诞生了，其全称为LargeVision-LanguageDiffusionModelwithMasking，即「带掩码的大型视觉-语言扩散模型」。
论文标题：LaViDa:ALargeDiffusionLanguageModelforMultimodalUnderstanding
论文地址：https ://arxiv. org/pdf/2505. 16839
该模型来自加利福尼亚大学洛杉矶分校、松下、Adobe和Salesforce，算得上是首批基于扩散的VLM之一，我们之前还报道过的另外几个多模态的扩散语言模型可供对照：
比GeminiDiffusion更全能！首个多模态扩散大语言模型MMaDA发布，同时实现强推理与高可控性
舍弃自回归！国内团队打造纯扩散多模态大模型LLaDA-V，理解任务新SOTA
谷歌之后，英伟达入局扩散大语言模型，Fast-dLLM推理速度狂飙27. 6倍
简单来说，为了使预训练的扩散模型能够感知视觉输入，LaViDa的做法是使用一个视觉编码器将视觉特征整合进扩散主干网络——类似于LLaVA使用视觉输入增强大型语言模型(LLM)的方式。训练方法上，他们采用了以扩散为目标的两阶段训练流程：先进行预训练，然后进行监督微调。
下面来详细看看LaViDa的具体方法和实验表现。
LaViDa是如何构建的？
LaViDa的模型架构与LLaVa等常见的自回归视觉-语言模型（VLM）类似。它由视觉编码器和扩散语言模型组成。这两部分通过一个MLP投射网络连接。其整体设计如图2所示。
视觉编码器：给定输入图像I和文本提示词P，首先将图像大小调整为768²，并将其分成四个384²的不重叠视图，记为I_{1:4}。另外，按照之前的相关研究，也将原始图像的大小调整为384²，以获得第五个视图I_5。
这五个视图分别由视觉编码器（SigLIP-400M）独立编码，每个视图产生27²个嵌入，记为V_{1:5}。总的来算，每个图像会产生3645个嵌入。
为了减少序列长度以提高训练效率，该团队还会在每个视图上应用2×2平均池化，从而将嵌入减少到了每个视图14²个，即总共980个。
然后，这五个视图的嵌入会被展平并连接成一维序列，然后由投射网络处理，从而获得扩散语言模型的最终视觉上下文。此过程与自回归LLM的视觉编码过程相似，如图2底部所示。
扩散语言模型：这里的扩散语言模型是一个多层Transformer，其架构与LLM类似。唯一的主要区别是：它的注意力掩码是非因果式的，并且它使用的建模目标是如下扩散语言建模目标，而不是自回归模型使用的下一个token预测。
扩散语言模型的输入包括投射的视觉嵌入、提示词P，以及部分遮掩的响应X_t。最后一个Transformer块的输出会经过最终线性层，以获得无掩码的响应X_0的逐tokenlogit。在其实验中，他们探索了LLaDA-8B（默认）和Dream-7B作为扩散语言模型。该过程如图2的上半部分所示。
下图展示了LaViDa的更多技术细节，而有关其训练算法和推理算法的更详细描述请参阅原论文。
LaViDa的实验表现如何？
从高层面看，LaViDa总体上采用了一种两阶段训练流程。
在预训练阶段（阶段1），仅更新投射算子，从而让视觉嵌入与DLM的隐空间对齐。
在微调阶段（阶段2），对所有组件进行端到端联合训练，以实现指令遵循。此外，该团队还对阶段2的模型进行了进一步微调，并得到了两个分别用于推理和文本填空任务的专用模型。
主要结果
评估使用了多种视觉-语言任务。表1报告了在视觉理解任务上，LaViDa使用LLaDA-8B（LaViDa-L）和Dream-7B（LaViDa-D）作为语言主干网络的结果，另外还有一些对比模型的结果。
可以看到，在一般任务、推理、光学字符识别(OCR)和科学等类别的众多任务上，LaViDa展现出极具竞争力的性能。
其中，在一般性的视觉-语言理解方面，LaViDa-L在MMMU上取得了最高分(43. 3)，优于所有同类模型。LaViDa-D在该类别的多个基准测试中也排名第二。
在推理任务方面，这两个模型在数学密集型和基于空间的基准测试中均超越了规模相似的基线模型。
在科学方面，LaViDa在ScienceQA上取得了最高分和第二高的成绩（分别为81. 4分和80.2分），同时在基于复杂图表的基准AI2D上的表现与Open-Llava-Next相当。
最后，在OCR方面，LaViDa表现还算不错，但落后于一些最新的自回归模型。该团队分析表示，这种差距主要是因为LaViDa使用了平均池化进行视觉token压缩，这会导致细粒度空间信息丢失。虽然这在计算预算方面是必要的权衡，但对于需要精确文本识别和布局理解的任务来说，这会带来困难。
整体来看，这些结果凸显了LaViDa的优势，表明基于扩散的方法颇具竞争力，可以与自回归模型一样scale，同时在多种视觉-语言任务上取得稳健的表现。
推理蒸馏

在这些任务中，最大生成长度L设置为1024。从结果可以看到，LaViDa-Reason在所有基准测试中均优于LaViDa，在最难的MathVision推理数据集上更是提升明显（相对提升了18%）。
文本填空
LaViDa为文本生成提供了强大的可控性，尤其是在文本填空方面。
给定一份由L个token构成的草稿，其中包含L_M个掩码，跳转到时间步骤t=L_M/L并运行标准推理直到t=0。这会直接将L_M个掩码替换为L_M个token。
然而，在实践中，补全所需的token数量可能会更少——例如，Thereisa[ M][M][M][M]intheimage可能会变成dog或trafficlight。
为了支持长度可变的补全，该团队使用阶段2数据一个20%的子集进行了额外的阶段3训练，并将该模型命名为LaViDa-FIM。

虽然FIM目标通常是在语言任务（例如代码补全）的语境中讨论，但它们与多模态应用同样相关。
图4a展示了有约束诗歌生成的定性结果，其中模型需要生成一首描述图像的诗歌，并且每行要以特定的音节开头。与自回归模型不同，LaViDa和LaViDa-FIM都成功完成了任务。值得注意的是，LaViDa-FIM会动态调整每行的token数量。
表2b则展示了100个样本的定量结果：这两个LaViDa变体均实现了100%的约束满足率，而对比的自回归模型则均在50%以下。
速度与质量的权衡
通过控制离散化步数K，LaViDa提供了一种便捷的方法来实现速度与质量的权衡。
基于COCO2017val数据集的500张图像，该团队比较了不同K值下的图像描述性能。其中K∈{32,24,16,8}，等价地NFE∈{100%,75%,50%,25% }。
图4b报告了在单个A5000GPU上测得的每张图像的平均延迟和CIDEr分数。
当NFE=100%时，LaViDa的CIDEr得分高于自回归基线，但速度略慢。当NFE=75%和NFE=50%时，LaViDa的速度比自回归基线更快，并且质量更好。当NFE=25%时，速度明显更快，但性能略逊一筹。这表明LaViDa可以根据应用需求灵活调整其推理速度，允许用户根据具体需求在生成延迟和输出质量之间进行权衡。
此外，该团队还研究了KV缓存的影响和噪声调度，并进行了消融研究，详见原论文。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin. com