ICML 2025 | 何恺明的“残差连接”被魔改,新架构给Transformer建了个“动态立交”,28亿参数打平69亿


ICML 2025 | 何恺明的“残差连接”被魔改,新架构给Transformer建了个“动态立交”,28亿参数打平69亿

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
坦白地说,你是不是觉得Transformer已经被研究透了?
经过了无数轮的验证与优化,Transformer的结果看似已经达到了非常稳定的最佳状态,想做出颠覆Transformer的结构创新,几乎不太可能了。。
我之前也这么觉得,直到最近看到了一篇ICML2025的论文,没想到又让Transformer老树开花了!
这篇论文思路很有意思,没有去卷那些主流的注意力机制,而是独辟蹊径,把“手术刀”对准了Transformer内部一个我们习以为常、甚至有些忽略的组件—残差连接(ResidualConnection)。
自2015年由何恺明团队提出以来,残差连接凭借其有效缓解梯度消失的超能力,几乎是深度网络的标配。没有它,今天的Transformer很难稳稳当当地堆到几十层,更别提像GPT-4一样动辄上百层了。
不过,任何技术都有它的适用边界。这个曾经的功臣,在今天动辄上百层的深度大模型里,也开始显露出它的瓶颈,成了新的信息“堵塞源头”:
一方面,信息在逐层传递中损耗严重。随着网络加深,各层特征越来越像(即“表示坍塌”),导致深层网络学不到新东西,白白浪费了参数和算力。
另一方面,单一的“残差流”带宽有限。Transformer所有跨层信息都挤在这条道上,当模型需要进行复杂的上下文学习时,这条“单行道”就显得捉襟见肘了。
而这篇ICML论文,就是冲着解决这个问题来的。
有意思的是,瞄准这个问题的,还是我们去年的老朋友——彩云科技与北京邮电大学的研究团队。他们设计了一套全新的多路动态密集连接(MultiwayDynamicDenseConnection,MUDD),目标就是给残差连接这个“老基建”来一次高效的改造。
熟悉我的老粉可能还记得,去年我就和大家分享过这个团队在ICML2024上的杰作DCFormer(哦,所以他们并不是没去卷注意力机制,是在DCFormer里已经卷过了。。)时隔一年,他们依然专注在底层架构创新这个方向上,这次的成果同样扎实。
那么效果如何呢?论文的数据很直接——
MUDD方案以极小的代价(参数增加0. 23%,计算量增加0. 4%),就让一个28亿参数的MUDDPythia模型,在多项语言任务上媲美约2. 4倍计算量的Pythia-6. 9B。尤其是在需要长距离上下文关联的5-shot场景下,它甚至能与约4. 2倍计算量的Pythia-12B模型正面对决。
和上次一样,团队也把论文、代码、模型都开源了,方便大家直接上手。
Github开源地址:https ://github. com/Caiyun-AI/MUDDFormer论文链接:https ://arxiv. org/abs/2502. 12170

在我看来,相比于烧钱拼硬件,从模型架构的根源上“榨取”性能,是当下最具性价比的方法。话不多说,让我们深入内部,看看MUDD究竟是如何“魔改”残差连接,实现性能翻倍的。
首先你可以这样理解,传统的残差连接,就像一条单向直路,信息层层打包、不分流,堵车是必然的。而且模型越深,信息传递越差,后面的层都在摸鱼偷懒,也就是常说的“深层瓶颈”。
MUDD的解决办法相当于把“单向直路”改成了一座“立交桥”,精妙之处在于三个设计:密集化(Dense)、动态化(Dynamic)、多路性(Multiway)。
先放一张MUDD的架构图——
标准残差连接第i层只能看到第i-1层的输出。而MUDD允许任何一层“回头看”,直接连接到它前面所有层的输出。
也就是让第i层能够直接“空降”到任意一个它之前的层(从0到i−1)去获取纯净的信息,这就彻底打破了逐层传递的限制。
光有桥还不够,还得有智能调度才能跑起快。动态连接,这是MUDD区别于以往静态连接的关键。MUDDFormer的连接权重不是固定的,而是动态生成的。不是所有历史信息都无脑涌入当前层。相反,它引入了一个“智能导航系统”。
模型在处理每个token时,会根据当前的语境(hiddenstate),动态地计算出每一条来自历史层的信息通道应该被赋予多大的权重。
这种“按需连接”的能力,让信息流动变得极其灵活和高效。
这是我觉得这篇论文里最创新的想法!MUDD的作者们认为:
在Transformer的一个Block里,Q(查询)、K(键)、V(值)和R(残差输入)虽然都来自上一层,但它们的使命完全不同。把它们混在一个车道里运输,简直是资源浪费。
于是,MUDD为它们设立了独立的专属VIP通道。为了让Transformer块内的不同输入流(Q,K,V,R)独立聚合,实现更精细的跨层通信,MUDD将下一层Transformer块的输入解耦为独立的Q、K、V、R四个流,并为每个流设计了独立模块。
这意味着,在生成下一层的Query输入时,会使用专门的DA_Q模块独立聚合前层信息,而生成Value输入时,则使用DA_V模块进行不同的聚合。
不同于传统的层内多头注意力,MUDD的设计核心是一种深度方向的多头注意力机制。它通过允许信息在不同层之间进行更丰富的Q/K/V交互,极大地增加了层间的通信带宽。
这种设计使得网络中的每个流(例如,负责传输信息内容的V流,以及负责匹配和对齐的Q/K流)能够根据其特定功能,独立且动态地从网络的历史/先前层中聚合所需的历史信息。
方法论讲的再好,也得看实际效果。MUDD论文里给了详细的实验分析,可以说把“性价比”打在了公屏上。
这恐怕是大家最关心的。
在大规模预训练(300Btokens)中,MUDDFormer仅用28亿参数,就在多项指标上达到了69亿参数模型(2. 4倍参数量)的水平。在更考验上下文理解能力的五样本学习任务上,它甚至能硬刚120亿模型(4. 2倍参数量)的水平。
实验显示,MUDDFormer从预训练开始,损失就显著低于所有基线模型,换句话说,相同的loss所需算力更少。
比如图3,我简单解释一下:横轴Compute代表训练总算力预算,写成“模型参数量×预训练token数”(例如405M×7B)。向右代表花更多算力。纵轴Loss越低越好。

其次,改善了Transformer++模型在增加层数后收益递减的问题。
传统Transformer越深,收益越低的“边际递减”问题,在MUDD这里得到了有效缓解。MUDDFormer即使在更深的配置下,依然能保持强劲的性能增长。
把深度加倍后(虚线vs实线),MUDDFormer的Loss下降幅度(虚线之间的垂直距离)明显大于Transformer++。说明深层仍能有效学习。
红箭头表示达到MUDD深模型的损失水平,Transformer++需再多花≈2. 08×算力。
再看下它多个任务上的表现,能够以小搏大,匹敌甚至超越更大模型。
把它用到VisionTransformer(ViT)上做图像分类,效果同样显著。
不止如此,和现在特别火的混合专家(MoE)架构结合,还能产生1+1>2的效果。MUDD与MoE模型虽然都利用动态权重,但作用机制不同(跨层聚合vs. 层内专家选择),二者属于正交且互补的技术。
如以下图5展示的实验结果,MUDD连接对MoE模型同样有效,并在应用时带来了额外的性能增益,预示着MUDD连接能够与MoE等先进架构相结合,进一步提升未来基础模型的综合性能。
总之,仅增加约0. 23%的参数和0. 4%的计算量,却在多种规模(405M–2. 8B)和多种架构(Decoder-only/ViT)上稳定超越原Transformer,需要的额外资源几乎可以忽略不计。
这次MUDDFormer与研究团队之前的DCFormer工作一脉相承,DCFormer侧重点在于序列长度的信息传递效率问题,而MUDDFormer则专注于优化模型深度方向的信息交互效率。
看似基础、底层的架构创新,在当前这个时候依旧有效。优秀的模型架构是撬动AI能力和效率的关键杠杆。
PS:MUDDFormer工作的的所有代码、预训练模型和详细的实验设置完全开源,不仅是一个即插即用的新工具,也是一种值得学习的创新思路。
GitHub:https ://github. com/Caiyun-AI/MUDDFormer
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录