ICML 2025 | 何恺明的“残差连接”被魔改，新架构给Transformer建了个“动态立交”，28亿参数打平69亿

发布日期: 2025-07-02

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

点击上方“小白学视觉”，选择加\“星标\“或“置顶”
重磅干货，第一时间送达
坦白地说，你是不是觉得Transformer已经被研究透了？
经过了无数轮的验证与优化，Transformer的结果看似已经达到了非常稳定的最佳状态，想做出颠覆Transformer的结构创新，几乎不太可能了。。
我之前也这么觉得，直到最近看到了一篇ICML2025的论文，没想到又让Transformer老树开花了！
这篇论文思路很有意思，没有去卷那些主流的注意力机制，而是独辟蹊径，把“手术刀”对准了Transformer内部一个我们习以为常、甚至有些忽略的组件—残差连接（ResidualConnection）。
自2015年由何恺明团队提出以来，残差连接凭借其有效缓解梯度消失的超能力，几乎是深度网络的标配。没有它，今天的Transformer很难稳稳当当地堆到几十层，更别提像GPT-4一样动辄上百层了。
不过，任何技术都有它的适用边界。这个曾经的功臣，在今天动辄上百层的深度大模型里，也开始显露出它的瓶颈，成了新的信息“堵塞源头”：
一方面，信息在逐层传递中损耗严重。随着网络加深，各层特征越来越像（即“表示坍塌”），导致深层网络学不到新东西，白白浪费了参数和算力。
另一方面，单一的“残差流”带宽有限。Transformer所有跨层信息都挤在这条道上，当模型需要进行复杂的上下文学习时，这条“单行道”就显得捉襟见肘了。
而这篇ICML论文，就是冲着解决这个问题来的。
有意思的是，瞄准这个问题的，还是我们去年的老朋友——彩云科技与北京邮电大学的研究团队。他们设计了一套全新的多路动态密集连接（MultiwayDynamicDenseConnection,MUDD），目标就是给残差连接这个“老基建”来一次高效的改造。
熟悉我的老粉可能还记得，去年我就和大家分享过这个团队在ICML2024上的杰作DCFormer（哦，所以他们并不是没去卷注意力机制，是在DCFormer里已经卷过了。。）时隔一年，他们依然专注在底层架构创新这个方向上，这次的成果同样扎实。
那么效果如何呢？论文的数据很直接——
MUDD方案以极小的代价（参数增加0. 23%，计算量增加0. 4%），就让一个28亿参数的MUDDPythia模型，在多项语言任务上媲美约2. 4倍计算量的Pythia-6. 9B。尤其是在需要长距离上下文关联的5-shot场景下，它甚至能与约4. 2倍计算量的Pythia-12B模型正面对决。
和上次一样，团队也把论文、代码、模型都开源了，方便大家直接上手。
Github开源地址：https ://github. com/Caiyun-AI/MUDDFormer论文链接：https ://arxiv. org/abs/2502. 12170

在我看来，相比于烧钱拼硬件，从模型架构的根源上“榨取”性能，是当下最具性价比的方法。话不多说，让我们深入内部，看看MUDD究竟是如何“魔改”残差连接，实现性能翻倍的。
首先你可以这样理解，传统的残差连接，就像一条单向直路，信息层层打包、不分流，堵车是必然的。而且模型越深，信息传递越差，后面的层都在摸鱼偷懒，也就是常说的“深层瓶颈”。
MUDD的解决办法相当于把“单向直路”改成了一座“立交桥”，精妙之处在于三个设计：密集化（Dense）、动态化（Dynamic）、多路性（Multiway）。
先放一张MUDD的架构图——
标准残差连接第i层只能看到第i-1层的输出。而MUDD允许任何一层“回头看”，直接连接到它前面所有层的输出。
也就是让第i层能够直接“空降”到任意一个它之前的层（从0到i−1）去获取纯净的信息，这就彻底打破了逐层传递的限制。
光有桥还不够，还得有智能调度才能跑起快。动态连接，这是MUDD区别于以往静态连接的关键。MUDDFormer的连接权重不是固定的，而是动态生成的。不是所有历史信息都无脑涌入当前层。相反，它引入了一个“智能导航系统”。
模型在处理每个token时，会根据当前的语境（hiddenstate），动态地计算出每一条来自历史层的信息通道应该被赋予多大的权重。
这种“按需连接”的能力，让信息流动变得极其灵活和高效。
这是我觉得这篇论文里最创新的想法！MUDD的作者们认为：
在Transformer的一个Block里，Q（查询）、K（键）、V（值）和R（残差输入）虽然都来自上一层，但它们的使命完全不同。把它们混在一个车道里运输，简直是资源浪费。
于是，MUDD为它们设立了独立的专属VIP通道。为了让Transformer块内的不同输入流（Q，K，V，R）独立聚合，实现更精细的跨层通信，MUDD将下一层Transformer块的输入解耦为独立的Q、K、V、R四个流，并为每个流设计了独立模块。
这意味着，在生成下一层的Query输入时，会使用专门的DA_Q模块独立聚合前层信息，而生成Value输入时，则使用DA_V模块进行不同的聚合。
不同于传统的层内多头注意力，MUDD的设计核心是一种深度方向的多头注意力机制。它通过允许信息在不同层之间进行更丰富的Q/K/V交互，极大地增加了层间的通信带宽。
这种设计使得网络中的每个流（例如，负责传输信息内容的V流，以及负责匹配和对齐的Q/K流）能够根据其特定功能，独立且动态地从网络的历史/先前层中聚合所需的历史信息。
方法论讲的再好，也得看实际效果。MUDD论文里给了详细的实验分析，可以说把“性价比”打在了公屏上。
这恐怕是大家最关心的。
在大规模预训练（300Btokens）中，MUDDFormer仅用28亿参数，就在多项指标上达到了69亿参数模型（2. 4倍参数量）的水平。在更考验上下文理解能力的五样本学习任务上，它甚至能硬刚120亿模型（4. 2倍参数量）的水平。
实验显示，MUDDFormer从预训练开始，损失就显著低于所有基线模型，换句话说，相同的loss所需算力更少。
比如图3，我简单解释一下：横轴Compute代表训练总算力预算，写成“模型参数量×预训练token数”（例如405M×7B）。向右代表花更多算力。纵轴Loss越低越好。

其次，改善了Transformer++模型在增加层数后收益递减的问题。
传统Transformer越深，收益越低的“边际递减”问题，在MUDD这里得到了有效缓解。MUDDFormer即使在更深的配置下，依然能保持强劲的性能增长。
把深度加倍后（虚线vs实线），MUDDFormer的Loss下降幅度（虚线之间的垂直距离）明显大于Transformer++。说明深层仍能有效学习。
红箭头表示达到MUDD深模型的损失水平，Transformer++需再多花≈2. 08×算力。
再看下它多个任务上的表现，能够以小搏大，匹敌甚至超越更大模型。
把它用到VisionTransformer（ViT）上做图像分类，效果同样显著。
不止如此，和现在特别火的混合专家（MoE）架构结合，还能产生1+1>2的效果。MUDD与MoE模型虽然都利用动态权重，但作用机制不同（跨层聚合vs. 层内专家选择），二者属于正交且互补的技术。
如以下图5展示的实验结果，MUDD连接对MoE模型同样有效，并在应用时带来了额外的性能增益，预示着MUDD连接能够与MoE等先进架构相结合，进一步提升未来基础模型的综合性能。
总之，仅增加约0. 23%的参数和0. 4%的计算量，却在多种规模（405M–2. 8B）和多种架构（Decoder-only/ViT）上稳定超越原Transformer，需要的额外资源几乎可以忽略不计。
这次MUDDFormer与研究团队之前的DCFormer工作一脉相承，DCFormer侧重点在于序列长度的信息传递效率问题，而MUDDFormer则专注于优化模型深度方向的信息交互效率。
看似基础、底层的架构创新，在当前这个时候依旧有效。优秀的模型架构是撬动AI能力和效率的关键杠杆。
PS：MUDDFormer工作的的所有代码、预训练模型和详细的实验设置完全开源，不仅是一个即插即用的新工具，也是一种值得学习的创新思路。
GitHub:https ://github. com/Caiyun-AI/MUDDFormer
下载1：OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。
下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三+上海交大+视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~