谷歌之后，英伟达入局扩散大语言模型，Fast-dLLM推理速度狂飙27.6倍

发布日期: 2025-05-30

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

在大语言模型（LLM）领域，推理效率是制约其实际应用的关键因素之一。谷歌DeepMind的Geminidiffusion曾以1400tokens/秒的生成速度震惊学界，展现了扩散模型在并行生成上的潜力。然而，开源扩散LLM却因缺乏KV缓存机制和并行解码质量衰退，实际推理速度长期被自回归模型压制.
近日，NVIDIA联合香港大学、MIT等机构重磅推出Fast-dLLM，以无需训练的即插即用加速方案，实现了推理速度的突破！
论文：Fast-dLLM:Training-freeAccelerationofDiffusionLLMbyEnablingKVCacheandParallelDecoding
项目地址：https ://nvlabs. github.io/Fast-dLLM
论文链接：http ://arxiv. org/abs/2505. 22618
GitHub链接：https ://github. com/NVlabs/Fast-dLLM
通过创新的技术组合，在不依赖重新训练模型的前提下，该工作为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据，解析其核心优势。
一、核心技术
分块KV缓存与置信度感知并行解码
1. 分块KV缓存（Block-WiseKVCache）：激活重用率超90%的双向加速
传统扩散模型因双向注意力机制难以直接复用计算结果，导致长序列推理效率低下。Fast-dLLM提出分块KV缓存机制，通过以下设计实现高效计算：
双向缓存策略：采用DualCache同时缓存前缀（Prompt）和后缀（MaskedTokens）的注意力激活值（KVCache），如图1(a)(b)所示。在分块生成时，前序块的KV激活可直接复用于后续块，减少重复计算🔄。
高相似度验证：实验表明，相邻推理步骤的KV激活余弦相似度接近1（图2），证明缓存复用的可行性。例如，在LLaDA模型中，通过缓存可实现90%以上的激活重用，单步计算量显著降低。
2. 置信度感知并行解码（Confidence-AwareParallelDecoding）

然而，MDMs中的多令牌预测过程首先为每个令牌生成一个概率分布，然后从这些分布中独立采样。这种独立采样可能导致不理想的组合（如生成“highhouse”等无效组合）。Fast-dLLM通过动态置信度筛选解决这一问题（所谓置信度，是指模型给token赋予的概率大小）：
阈值激活策略：仅对置信度超过阈值（如≥0. 9）的token进行并行解码，低置信度token留待后续步骤处理。如图3所示，该策略可在保证生成质量的前提下，并行输出多个token。
理论证明：当(n+1)ϵ≤1时（n为并行解码token数，并且并行解码的n个token的置信度都大于1-ϵ），贪婪解码策略下并行解码与顺序解码结果一致，从数学层面确保了生成逻辑的连贯性。
3. 伪代码：分块KV缓存与置信度感知并行解码流程
以下是Fast-dLLM算法的核心伪代码，结合了分块KV缓存以及置信度感知并行解码，无需训练就可以在现有的开源DiffusionLLM（如LLaDA、Dream）上即插即用进行推理加速。
二、性能突破
速度与精度的均衡优化
1. 长文本生成：27. 6倍端到端加速
在LLaDA模型上，针对1024token的长文本生成任务，Fast-dLLM将单步延迟从0. 26秒降至0.09秒，整体耗时从266秒压缩至12秒，实现27. 6倍端到端加速。这一提升在代码生成、数学推理等长序列场景中尤为显著，例如8-shot提示的GSM8K任务中，加速后仍能保持76%的准确率。
2. 精度保持：损失<2%的基准测试表现
在主流基准测试中，Fast-dLLM的准确率损失控制在2%以内：
GSM8K（5-shot）：LLaDA+Fast-dLLM准确率为78. 5%，仅比基线低0. 8%，但吞吐量提升8. 1倍（图5）。
HumanEval（代码生成）：准确率达44. 5%，较基线提升1. 2%，同时吞吐量提升3. 7倍。
多模型兼容：在LLaDA、Dream等模型上均实现高效加速，验证了技术的通用性。
三、应用价值
无需训练的即插即用方案
Fast-dLLM的零训练成本特性使其成为理想的推理优化工具，能够快速集成到现有的系统中。对于那些已经在使用扩散模型的企业和开发者来说，可以在不改变模型架构和训练流程的基础上，直接利用Fast-dLLM提升推理效率，缩短长文本生成耗时，为实际部署提供更可行的方案。
四、总结与展望
Fast-dLLM通过分块KV缓存与置信度感知并行解码的创新组合，实现了扩散模型推理效率的跨越式提升，同时保持了生成质量的稳定性。其技术设计为非自回归生成模型提供了新的优化范式，有望推动扩散模型在实时交互、长文本生成等场景中的广泛应用。未来，随着模型规模的扩大和蒸馏技术的深化，Fast-dLLM或将进一步缩小与自回归模型的性能差距，成为LLM推理加速的核心方案之一。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin. com