Text Diffusion,来了


Text Diffusion,来了

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

卷友们好,最近Google推出的GeminiDiffusion引起了一波热烈的讨论,其实早在几个月前,就有一个叫MercuryCoder产品展现了Diffusion模型强大的推理能力。学术界也早在2025. 02月就成功在8B规模上验证了冷启动训练Diffusion的效果(LLaDA[ 1])。
相比AR的建模方式,Diffusion建模有三个优势:
并行推理,速度可以快好几倍
双向上下文建模,避免reversalcurse[ 2]
同样可以做到test-timescaling
但是,由于LLM训练成本高昂,很少有人把Diffusion推到较大的规模。LLaDA这篇工作不仅验证了Diffusion模型在8B规模内,与AR的训练Scaling相当,同时也冷启训练了达到Llama3-8B水平的开源Diffusion模型。
下面我转载了LLaDA的作者之一李崇轩在知乎上的一些分享,帮助大家了解Diffusion模型这几年的进展。
作者:李崇轩
https ://www. zhihu.com/question/1908479621466396378/answer/1910672718174589774
大家好,我是中国人民大学高瓴人工智能学院李崇轩,因为做的非常相关,来回答一下\“如何评价Google刚刚发布的GeminiDiffusion?会代替自回归模型成为下一代模型吗?\“这个问题。

我在人大的课题组很年轻,组内在离散扩散模型的代表性工作有RADD,ScalingLawforMDM,LLaDA,LLaDA-V和这两天即将发布的LLaDA1. 5。我想可以按照时间划分为两个阶段来介绍一下这个领域,然后发表一下我的看法。
这个阶段其实扩散语言模型是比较偏小众的,我按照离散和连续模型的区别来划分。
早期有不少方法是通过将连续(即基于Gaussian加噪去噪的)的扩散模型直接应用到语言模态上,一定程度可以理解为对离散数据做了连续化。代表性的工作有PercyLiang的,Tingchen和Hitton合作的,quanquangu和zaixiangzheng,还有AlexGraves的Bayesianflownetwork,另外还有苹果的YizheZhang以及港大的LingpengKong课题组的非常多的工作(如果有忘记的工作不好意思,因为自己纯凭印象难免有疏漏,请在评论区补充哈)。
其他采用连续模型,但是避免离散数据连续化的研究思路也有,比如lou和ermon做过一些离另外一个思散数据概率分布的参数空间(单纯形空间)受约束下的连续扩散模型,这种技术性更强,但是可能可扩展性和采样方法更困难。
另外一个思路是ICML2024的一个工作,做过一个通过SDE统一BFN和diffusionmodel的方法,可以理解为,在logits空间(过softmax之前)做linearSDE,这样不需要连续化数据,也不需要受到单纯形的约束,还能直接把DPM-solver等recipe拿过来做加速,我觉得从方法上来讲是很漂亮的。
我们组其实在扩散语言模型的研究阶段起步不是很早,我们大概在2023年6月开始做,上述ICML2024就是我们第一个相关工作,我个人选择连续的扩散模型的理由是:因为这样可以无缝多模态。语言,图像,视频直接概率建模方式统一为扩散,基于底层一个transformer模型(类似unidiffuser)可以大一统。
然而,很不幸,目前来看这类方法在语言上的可扩展性是存疑的,如Plaid文章中有一些结果是相对负面的。但是,最近BFN在科学等小规模数据上应用非常广泛,大家可以关注一些子刊的文章。

离散扩散模型的建模并不只是一种。其中比较有名的一种是平稳分布为词表上的均匀分布,称为Uniform,另外一种是全部掩码的,称为MDM(MaksedDiffusionModel)。当时基于多个工作的实验,都发现MDM的结果比Uniform好很多。刚好那个时候大家可能也发现连续的扩散模型scaling不行。因此,大家的重心自然地会转向MDM。
我们最初还是希望系统地理解MDM的本质。我们在MDM上的第一个工作结论是让我非常惊讶的:一个MDM的转移核,应该是一个关于t的函数(大家想想连续的扩散模型都需要把时间t输入网络去噪),但是我们证明了MDM中这个函数关于t的部分是一个有解析解的标量,乘在一个需要学习的模型分布上。那么,我们自然地可以重参数化,把t从模型输入中拿掉,最后在输出上乘上去,这就是RADD,基于RADD可以简化很多SEDD的模型和损失函数设计。例如,RADD去掉t意味着我连DiffusionTransformer都不需要,直接用Transformer就好了,那么自然地就跟BERT、MaskGIT建立了联系。

因为这个问题特别受到关注,我就单独回答一下。
MDM和BERT的关系如下:MDM->采用mask转移核(不能用uniform的)->证明其时间t在输入中是冗余的(不然带着t用的是DiT/U-ViT)->输入随机掩码改为固定掩码(直接不是一个生成模型了)->BERT
我们组和非常多MDM的人是机器学习出身,特别是generativemodel出身,最初的动机包括MDM本身的发展是沿着概率建模的思路的,因此就顺着叫Diffusion了(如果往前追到ICML2015,这比BERT还早),后来我们确实发现了和BERT以及MaskGIT的联系,也都在relatedwork提到了,并没有人回避这个问题。
但是二者上述的区别我认为是非常显著的,技术上,BERT的联合概率是怎么定义的?怎么从BERT里面采样文本?如果没有这些能力,作为一个非生成模型,BERT怎么跟GPT一样统一语言任务呢?有很多ScalingBERT的工作,为什么他们只作为Embeddingmodel不做基础生成模型?谷歌BERT积累这么多年,为什么今天GeminiDiffusion才出来?
其实具体叫啥名字也没有那么重要,称MDM为Modified/RandomizedBERT技术上应该也没错,但是把Modified/Randomized去掉,说就是BERT,是不是不太客观?
我个人坚持认为Diffusion是更合适的名字,这是因为一路发展就是这么过来的,技术上就是扩散,并且能突出它是一个生成模型,因为他是生成模型我们才相信他能scaling后跟GPT打擂台,而不是因为它像BERT。
RADD出来之后,我觉得已经非常清楚了,就决定投入我们组5位博士生,一半的人力到MDM方向。2024年我开启动小组会的时候跟大家说,我们有三个目标:
我保证给每一位同学找到合适的MDM项目,进行系统科研训练,然后每个人都有自己一作的工作(我已经做到了),不耽误大家前程;
我们要团结起来,课题组一起做一些有影响力的工作(这就是LLaDA系列);
解决MDM最难的问题,让顶尖的公司在端侧或者云侧上线MDM模型或者技术,干掉ARM(划掉)。
就是在这三个目标的牵引下,我的课题组和合作者们开始从MDM的基础研究转向Scaling。
第一个工作是2024年10月,课题组做了第一个MDM的ScalingLaw(ICLR2025)。并且,考虑到似然评估的数值问题(之前提到了)和大规模应用中下游任务的重要性,我们系统评测了MDM和ARM的表现。实验规模比较小,但是数据、算法、模型、计算量全部对齐的。其结论解决了我们认为当时最重要的问题:从头训练,GPT-2大小下,MDM不亚于自回归。
第二个工作是2025年2月,课题组做了第一个能够多轮对话的MDM,LLaDA8B。LLaDA展示了很好的可扩展性,指令追随等能力,能够和LLaMA38B这种代表性工作媲美。这样我们更加坚信这条路是值得探索的。LLaDA做完之后,课题组经过了讨论,决定全力支持开源工作,把一切能开源的代码和权重全都放了出去,并且尽快地回复社区内的所有问题。我们希望有更多的人加入领域,完善MDM,这样才有机会完成目标3。
后续的发展也确实像我们预想的一样,越来越多人关心这个领域。近期,在语言对齐和推理相关的工作有:d1,LLaDou,还有我们最近会放出去的LLaDA1. 5(VRPO);在多模态相关的工作有:王梦迪老师的MMaDA,LaViDA,和我们的LLaDA-V;在diffusion上做类似kvcache的加速技术也有两篇工作dimple和dLLM-cache。
另外,除了从头Scaling,还有一条路是LingpengKong课题组做的基于自回归模型微调的diffuLLaMA和Dream。

工业界的产品我觉得更方面肯定会比学术界做的更好,他们做的一些加速效果我个人觉得是真的,可以用cache,可以跳步,也可以蒸馏。不过很遗憾目前二者都没有透露太多的技术细节。
LLaDA是我做过的最好的工作,即便被ICML拒稿,我从2014年读博开始做generativemodel十一年,做过vae,做过gan,做过ebm,做过diffusion。终于有一次,是我告诉别人这个东西是work的,而不是别人告诉我。有人质疑说LLaDA没有新的技术,说实话生成模型偏技术方面的工作我做过不少,Analytic-DPM就很技术;应用的我也做过不少,U-ViT就非常直接。我认为不管有没有技术,最好的研究是改变/加深大家对一个东西的理解和认知,我认为做LLaDA过程中就改变了我很多的认知。
如果你觉得LLaDA没有改变你的认知。可以问一问自己,时间回退一年,在Diffusion做work之前,你觉的这条路会成吗?给你300张卡,只有一个半月的使用时间,这是你能争取到最大的资源,你会用它做什么?
很多人提到了变长等问题,我觉得非常敏锐,这是一个很难的、值得研究的问题。特别是对做研究的朋友们而言,如果一个问题大家都觉得简单,那可能很卷了。扩散语言模型还是有非常多值得探索的空间,机会就在困难之中。
写的有点长了,累了。也欢迎关注我们课题组2月份发的知乎文章GSAI-ML:自回归是否是通往语言智能的唯一路径?——生成模型的一些思考(3)(https ://zhuanlan. zhihu.com/p/24214732238)
参考资料
LargeLanguageDiffusionModels:https ://openreview. net/forum?id=wzl61tIUj6
TheReversalCurse:LLMstrainedon\“AisB\“failtolearn\“Bis\“A:https ://arxiv. org/abs/2309. 12288
我是朋克又极客的AI算法小姐姐rumor
北航本硕,NLP算法工程师,谷歌开发者专家
欢迎关注我,带你学习带你肝
一起在人工智能时代旋转跳跃眨巴眼
「这一切都太快了」


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录