挑战 next token prediction,Diffusion LLM 够格吗?
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
机器之心PRO·会员通讯Week23
—本周为您解读②个值得细品的AI&Robotics业内要事—
2. AI推理成本暴跌,「互联网女皇」MaryMeeker从中看到了什么?
MaryMeeker为何强调AI发展速度远超互联网时代?AI模型训练成本与推理成本「剪刀差」将如何重塑行业竞争格局?企业该如何平衡算力投入与商业化回报?中国开源模型崛起对全球供应链有何潜在影响?人机协作时代如何平衡劳动力结构转型与技能重塑?…
本期完整版通讯含2项专题解读+27项AI&Robotics赛道要事速递,其中技术方面11项,国内方面4项,国外方面12项。
本期通讯总计29595字,可免费试读至7%
消耗99微信豆即可兑换完整本期解读(约合人民币9. 9元)
引言:DeepMind在GoogleI/O2025开发者大会展示了谷歌DeepMind在AI模型、工具、服务、应用的多项成果。但在大会半个月后,其展示的GeminiDiffusion开始引起社区热议,进而促进了业界开始关注这类基于扩散架构的语言模型所具备的潜力。
1、由于GoogleI/O2025展示了Gemini2. 5Pro、Gemini2. 5Flash、编程智能体Jules和视频生成模型Veo3等一系列成果,导致GeminiDiffusion在最初颇为低调,在近2周后才引起关注,被社区称为「被忽略的重大突破」。[1-1][1-2]
2、GeminiDiffusion在Demo中展示了较高的生成效率,但真正引起热议的特征在于,该模型采用了在图像和视频生成领域更为流行的扩散架构进行文本生成,与其他专注于扩大上下文窗口或提升现有自回归模型工作差别鲜明。
①GeminiDiffusion的文本生成平均采样速度在排除额外开销后可达1479TPS,在编码任务中甚至能达到2000TPS,在性能表现基本旗鼓相当的前提下,比Gemini2. 0Flash-Lite快4-5倍。
②由于扩散架构通过迭代去噪实现的并行生成机制与当前流行的自回归架构有着明显差异,GeminiDiffusion在后续报道和话题中被描述为新兴范式的崛起。[1-3]
3、与自回归(AR)架构预测下一个Token的机制不同,GeminiDiffusion的扩散架构采用去噪过程来生成文本,本质上是一种纠错机制,其从从噪声或掩码输入开始,通过迭代精炼并行地逐步完善整个输出。[1-5]
①扩散架构这种「从粗到细」的生成方法是其并行处理能力的关键,模型通过复杂的噪声/去噪方案进行学习,其中随机子集的token以不同比例进行掩码,使其能够处理从微小损坏到从头开始的完整生成。
4、AI社区中有分析强调了谷歌基于GeminiDiffusion探索生成式AI新方法的理念。但让该模型,或是GeminiDiffusion所代表的DiffusionLLM有底气被称为「GameChanger」的原因在于这种并行高效的机制在AI能源消耗制约下的潜力。[1-4][1-5]
①IBM的研究工程师BenjaminHoover在2025年3月的一篇文章中指出,扩散模型相较于类似GPT的AR模型通常效率更好,因为它能够并行优化整个序列,能够明显减少计算开销。
②该文章强调了大模型耗电巨大,业界长期认为利用连续电信号而非二进制运算来处理信息的「模拟计算」有望解决AI能源问题的潜在方案。而从长远看,基于扩散的AI系统有望在模拟硬件上运行,从而大幅降低能源成本。
5、GeminiDiffusion的成果让AI社区开始关注DiffusionLLM的路线。虽然部分报道描述该范式为谷歌带来的「首个」突破,但此前学界和工业界均在该路线有过探索和相关成果。
①此前,斯坦福大学2022年提出的Diffusion-LM在细粒度的复杂生成控制方面取得了重要进步;上海AI实验室提同年出了首个专为Seq2Seq任务设计的扩散模型DiffuSeq,复旦大学结合扩散过程与BERT模型相结合提出了DiffusionBERT。[1-6]
②DiffusionLLM近期的代表性成果则有蚂蚁和人大团队2025年2月发布的LLaDA系列,以及InceptionLabs同期发布的基于扩散的CodingLLM「Mercury」。
谷歌GeminiDiffusion尚未正式公开。此前,在2023年有综述梳理了扩散模型在NLP领域中的应用效果,近期的LLaDa系列是则是DiffusionLLM工作中较为成体系的研究工作。
1、扩散模型虽然流行于视觉生成领域,但业界同样在探索该技术文本生成任务中的潜力。明尼苏达大学的研究者曾通过综述系统梳理了扩散模型在NLP中的应用效果,涵盖文本生成、情感分析和机器翻译等任务类型。[1-7]
①该综述于2023年上传arxiv,将扩散模型在NLP中的应用分为离散和嵌入两类。前者通过在离散空间中直接对文本进行建模,而嵌入扩散模型则将离散文本映射到连续空间中进行处理。
②该工作总结了扩散模型的多项优势,如并行生成的机制可同时生成所有token,对文本生成的效率有极大帮助;文本插值能力啧可以生成句子间的衔接内容,提高文本流畅性和连贯性;其他优势还有细粒度控制和高稳健性等。
③截止2023年5月(综述最后更新时间),用扩散模型处理NLP任务存在多项局限,包含需要多轮扩散步骤的训练过程过于复杂、多次非线性变换导致潜空间表征过于抽象、离散数据处理难度高等。
2、在近期有关dLLM的研究中,较为有代表性的LLaDA于2025年2月提出,在8B规模上验证了冷启动训练DiffusionLLM的效果,表明了「通过前向掩码加噪与反向去噪机制,同样可以实现大语言模型的核心能力」。[1-8]
①LLaDA工作由蚂蚁集团和中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队提出。该模型在发布时展示了在下有语言任务中与Llama38B相竞争的能力和可扩展性。
3、根据李崇轩团队在论文及相关博客和文章中的描述,自回归LLM和扩散LLM本质上都是生成式模型,其工作过程通常包含三大要素,即网络结构(MLP、CNN、RNN、Transformer)、规模扩展(模型、数据、计算)、概率建模方法(VAE、GAN、Flow、自回归、扩散模型)。[1-6][1-8]
①其团队发现当前主流大语言模型普遍采用极大似然估计训练网络,而极大似然估计等价于最小化真实数据分布与模型分布的KL散度。他们认为:「大模型的诸多优良性质源于极大似然估计本身,而非自回归建模方式。」
②生成式模型的可扩展性主要来自Transformer架构、模型与数据规模以及生成式原则所诱导的Fisher一致性之间相互作用的结果,而非自回归模型独有的特性,这一观点在U-ViT与DiT等视觉处理的成果上也有体现。