【源头活水】1000 token/s的「扩散LLM」凭什么倒逼AI走出舒适区?
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
ChatGPT平地一声雷,打乱了很多人、很多行业的轨迹和节奏。这两年模型发布的数量更是数不胜数,其中文本大模型就占据了AIGC赛道的半壁江山。关注我的家人们永远都是抢占AI高地的冲锋者。
所以,今天我准备用一个小调查开头——
【当前你对大模型最不满的点是什么?】
(我尽可能整理的全一点儿,但也不可避免地会有遗漏,家人们可以在评论区讨论~)
逻辑混乱的”幻觉式回答”
上下文理解和长对话记忆能力有限or过度记忆(混入了之前出现的不相关的内容)
知识库更新滞后
生成速度影响交互流畅度
指令跟随的精确度不够高
在特定专业领域的回答深度不够
缺乏创意,创造性、想象力不够
道德护栏过严(拒绝合理请求)
价值观/偏见:产生一些带有偏见或不符合伦理道德的回答
个性化缺失(回答太“通用”,不够贴合个人需求)
多模态输出粗糙(图文/视频生成不达标)
数据隐私问题
幻觉、知识滞后是一个老生常谈的话题,现在模型基本上都已经具备RAG联网能力,或者通过人类反馈强化学习(RLHF)优化生成逻辑来缓解;为了让模型多记住点东西,增大上下文长度也是这两年各大厂商卷的方向,硬是被谷歌卷到了2M的天花板。
关于「在特定专业领域的回答深度不够」,现在特别火的Manus虽然它想做成通用型Agent,但我觉得也能解决一部分专业度问题,像秘塔的研究模式、DeepResearch、百度的深度搜索,有不少解决方案都在做了。
这里我想提一下第4点——
「生成速度」
因为这两天对这个感触比较深。
先是看到群里有小伙伴吐槽阿里千问的新推理模型QwQ-32B的速度,我也深有体会,等半天没有结果,心急火燎的。所以我干脆本地部署了一个(看上次的推文);
然后是Manus,虽然视频demo里面,处理速度快到飞起。但是现实总是有骨感的。
不少拿到邀请码的朋友和我吐槽“1小时才做一半”,速度慢到怀疑人生,一个任务动辄需要几十分钟。
虽然知道它是一个级联、多模块调度的复杂系统,但是也能真实的反映当下现在AI的响应速度,有时候真的跟不上我们心里的速度了。
尤其在高峰期或复杂任务中,等待时间,简直让人抓狂。
这种心急如焚的等待,经历过的都懂!
正好这两天看到family群里小伙伴在讨论——MercuryCoder
是一个扩散语言模型,2月底才出来,生成速度快到要起飞,直接秒杀现在所有的大模型。
当时并没有多少人关注它,但是怎么逃得过我这个老技术人的嗅觉。
先感受下它的速度,这是我在官网跑的一个case(无加速版):
官网地址:
https ://chat.inceptionlabs.ai
除了firsttoken之前有3、4秒的等待,中间几乎是一口气儿print出来的。
再看个和Claude、chatgpt的对比视频——
Mercury最先出结果,全程只用了6秒,Claude用了28秒生成完毕,chatgpt则用了36秒。
生成速度整整快了5-6倍。
来自官方的一组更直观的数字——
“在NVIDIAH100GPU实现高达1000tokens/秒的输出速度,在此之前只能在定制芯片能够实现这个速度。”
而且,不是通过定制芯片、框架适配、加速计算库这些硬件和工程化手段做到的,而且引入了一种全新的语言模型——
扩散语言模型,diffusionLLM,简称成dLLM。
扩散模型,听过,语言模型,也听过。两个都不陌生。
那扩散+语言模型,听过吗?大部分人到这里可能还没意识到事情的严重性。
这个新结合体,极有可能会终结掉现在所有的大模型。
Deepseek封了ChatGPT的成神之路,diffusionLLM,未来可能封了Transformer的进化之路。
理解这个之前,你得先知道,现在绝大部分主流LLM都是基于Transformer架构。
AI模型的演进史,从ngram到RNN,再到LSTM,最后到Transformer,每一代都是以「前一代」的局限性为靶心。
ngram→RNN:解决了上下文长度限制。
和我一样学过宗成庆老师的《自然语言处理》的一定知道,ngram是统计语言模型的奠基者。
RNN→LSTM:解决了梯度爆炸/消失问题。
我刚工作那会儿还在大学特学卷积神经网络和LSTM呢,天天研究卷积的复杂度是咋算的、输入门、遗忘门是怎么控制的数据的。
LSTM→Transformer:解决了并行化问题。
Transformer→???
diffusionLLM可能就是这里的???。
你看这个图——
在其他模型的输出速度只有百级别的时候,Mercury实测速度已突破每秒1000Token大关。
而且,性能表现可以与GPT-4o-mini和Claude3.5Haiku这种各家兼顾效果和速度的模型相提并论。
自回归与扩散之争
目前为止,你们见到的大部分大语言模型,在核心建模方法上都大同小异,都是“自回归”式的。简单理解——
从左到右,依次预测下一个词(token)。
就像写作文,从第一个字开始,根据上下文逐字逐句地写下去,就跟挤牙膏一样。
缺点就是速度慢,因为必须一个字一个字地生成。
更重要的是,生成每个token都需经过一次对神经网络的正向计算(推理),带来了巨大的计算负担。
而大多数图像和视频生成AI都是用扩散模型,而不是自回归模型。举个恰当的例子:
就像雕塑,先有一块粗糙的石头,逐步去除多余部分,最终呈现出精美的雕像。
优点是并行生成:理论上可以一次性生成所有token,速度更快。
比如DALL-E2、StableDiffusion、Sora都是扩散的代表。
所以你好不好奇,为什么文本生成偏爱自回归,而图像/视频生成偏爱扩散模型?
这背后原因很复杂,涉及到信息和噪声在不同领域的分布,以及我们人类对它们的感知。
文本是离散的token序列,每个词汇的选择都强烈依赖于前面的上下文。自回归模型(如Transformer)天然地契合了文本的序列依赖性。
图像和视频是由连续的像素值组成的,扩散模型最初是为连续数据设计的。
扩散模型的核心在于模拟两个互逆的过程完成“由混沌至有序”的生成策略:
前向扩散,如同逐渐向清晰照片注入噪声,使其最终变为完全随机的噪点。
反向扩散则相反,模型学习从纯噪声中逐步去除噪声,最终还原出清晰图像。反向扩散过程是扩散模型生成数据的关键。
扩散模型不是从左到右,而是一次性生成(这个“一次性”也是通过逐步去噪实现的)。
从纯噪声开始,逐步去除噪声,最终形成一个token序列。
去噪的过程,看这个视频很直观——
不是一字一字按顺序生成,像随意蹦出来的字符,最后竟然是连贯的。
这是一篇我前段时间刷到过,来自人大高瓴和蚂蚁集团合作的一篇论文LLaDA。
论文链接:
https ://arxiv.org/abs/2502.09992
再看一个例子——
扩散大语言模型LLaDA的核心在于其参数化的模型𝑝(𝜃)(⋅|𝑥(𝑡))。这个模型接收序列输入,并能同时预测所有被mask的token(用M表示)。在训练过程中使用交叉熵损失函数,但仅在被掩盖的token上计算损失,以优化模型预测掩码token的能力,训练的目标函数如下图所示:
训练完成后,LLaDA即可用于文本生成。
它通过模拟一个反向扩散过程来实现,这个反向过程由训练好的掩码预测器𝑝(𝜃)参数化。模型的分布被定义为反向过程在时间步t=0时所诱导的边缘分布。这种设计使得LLaDA成为一种有原则的生成建模方法。
LLaDA的架构与目前主流的自回归大语言模型架构相似,仍是基于Transformer架构。然而,LLaDA并不使用因果掩码。这是因为LLaDA的设计允许模型在进行预测时看到完整的输入序列,而无需像自回归模型那样只能依赖于之前的token。
回到Mercury的性能——
在执行LLM推理函数编写任务时,传统自回归模型需迭代75次方可完成,而MercuryCoder仅需14次迭代,速度提升幅度显著:
AndrejKarpathy对这个工作都表示了认可和期待。
吴恩达老师也翻牌了,称这是一次很酷的尝试:
团队介绍
Mercury的研究团队来自一家名为InceptionLabs的创业公司,其联合创始人StefanoErmon不仅是扩散模型技术的核心发明人之一,也是FlashAttention原始论文的主要作者之一。
AdityaGrover和VolodymyrKuleshov毕业于斯坦福大学,并分别执教于加州大学洛杉矶分校和康奈尔大学的计算机科学教授,也共同参与了InceptionLabs的创立。
Mercury以及LLaDA的出现,标志着基于扩散模型的dLLM已经崭露头角。
扩散LLM如果要封喉Transformer,还需要在生成速度(并行去噪)、多样性(摆脱自回归的单调性)和可控性(更精准的输出)上全面胜出。
但眼下,它更像是个有潜力的“后浪”。
但是技术演进往往是融合而非完全替代,未来也有可能是两者的融合,例如先用扩散模型生成草稿,再用自回归模型进行润色。
毕竟在这个信息过载的时代,0.5秒的加载时长就足以让用户流失。
当「生成速度」成为制约创造力的瓶颈,就要倒逼AI走出舒适区。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!