【源头活水】微软等提出「模型链」新范式，与Transformer性能相当，扩展性灵活性更好

发布日期: 2025-06-03

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注！
随着大语言模型(LLM)的出现，扩展Transformer架构已被视为彻底改变现有AI格局并在众多不同任务中取得最佳性能的有利途径。因此，无论是在工业界还是学术界，探索如何扩展Transformer模型日益成为一种趋势。
在此背景下，LLM的参数规模呈指数级增长，从数十亿级增长到数万亿级。因此，其爆炸式增长的参数规模也给训练带来了极其昂贵的负担，并且无法针对不同的部署环境提供不同的推理用途。
鉴于这种日益增长的扩展律，如何开发和有效利用LLM来处理各种场景中的用户指令，已成为整个社区面临的一个开放且关键的挑战。
目前，扩展LLM架构存在以下问题：
与人类智能能够渐进式获取新知识不同，现有的扩展策略无法保留已有知识规模，总是需要从头开始训练，导致效率低下。
现有LLM架构（如密集模型或MoE）始终激活固定规模的参数，缺乏动态适应问题解决能力的机制。
论文标题：Chain-of-ModelLearningforLanguageModel
论文地址：https ://arxiv. org/pdf/2505. 11820
具体而言，本文观察到任何表征总是可以看作是隐藏维度上多个子表征的组合。因此，本文将这种组合定义为表征链，每个子表征对应一条链。基于此定义，通过使用不同数量的前导链（precedingchains），其对应的特征可以用来编码不同的知识（称之为scale），如图1所示。
因此，如何在CoR特征之间建立连接以确保跨尺度的特征转换是非常关键的。
为了实现这一目标，本文接着提出了一种名为模型链（Chain-of-Model，CoM）的新型学习范式，用于建模CoR特征。
其核心思想是在不同尺度之间引入因果依赖关系，确保每个尺度只能使用其前面尺度的信息。为此，本文提出了链式层（Chain-of-Layer，CoL），以基于CoR特征重新构建当前的网络层。
在CoM框架的基础上，本文将CoL的思想应用于Transformer的每一层，重新构建了语言模型架构，并将其命名为语言模型链（CoLM）。
此外，基于CoL准则，本文在注意力模块中进一步引入了键值共享机制，该机制要求所有键和值都在第一个链中进行计算，并将其命名为CoLM-Air。基于此机制，CoLM-Air提供了更高的可扩展性和灵活性。
多个基准测试实验结果表明，CoLM系列模型能够达到相当的性能，同时展现出更好的可扩展性和灵活性。
方法介绍
首先是表征链的定义：
据定义1，每个链对应于CoR中的每个子表征，通过激活前几个链，CoR可以用来编码尺度。因此，CoR允许在单一表示中编码n个不同的尺度。如果n=1，CoR与原始表示相同。图1展示了CoR的概念。
基于上述定义，现在面临的一个挑战是如何设计层来建立CoR输入和CoR输出之间的连接，从而实现多尺度特征转换，同时又能保持输出特征符合定义1中CoR的标准。
这就需要保证每个尺度只能利用其所有前一个尺度的信息，并同时引入Chain-of-Layer将因果关系融入CoR的隐藏状态中，如下所示：
其中，CoL具有三个基本属性——普遍性、因果性和组合性。
最重要的是，CoL支持组合性，这意味着堆叠多个CoL层也能保留CoL的特性。这一特性能够将CoL的范围从层级推广到模型级。
接着本文又给出了第三个定义
根据定义3，如果一个模型满足了CoM的标准，那么它也继承了CoL的所有属性，例如通用性和因果关系。换句话说，任何模型都可以被视为一种CoM（即n=1）。CoM可以将不同规模的多个子模型集成到一个模型中，能够在现有模型的基础上进行扩展。这种能力直接赋予了基础模型更好的可扩展性和灵活性。
接着，文章详细描述了如何将CoM应用于语言模型，包括Linear、Transformer中的每个模块（例如，嵌入、自注意力、前馈、归一化）以及目标函数，并将其称为CoLM（Chain-of-Language-Model）。此外，本文进一步引入了一种基于CoLM框架的键值共享机制，并将其称为CoLM-Air，它提供了更好的灵活性。
图2描述了线性层和Chain-of-Linear层的比较。
图3说明了注意力和注意力链的区别：
对这部分内容感兴趣的读者，可以参考原论文了解更多内容。
实验结果
表1结果表明，CoLM取得了与基线相当的结果，同时提供了更快的预填充速度和更高的灵活性。
考虑到CoM的通用性与因果性，任何模型在链数为1时均可视为CoM的特例，并可扩展至多链结构。因此，本文提出链式扩展（ChainExpansion）方法：以训练完备的模型作为初始链，通过新增链进行扩展。
为验证这一观点，本文选择了两个LLaMA变体（即TinyLLaMA-v1. 1和LLaMA-3. 21B）作为扩展的初始链。
表2结果表明，与TinyLLaMA-v1. 1和LLaMA-3. 2-1B相比，本文分别实现了0. 92和0.14的提升。由于LLaMa-3. 2-1B是更强的基线，因此需要更多计算才能获得显著提升，但本文方法在有限的计算量下仍然可以对其进行改进。总体而言，这些结果也表明，即使在资源受限的情况下，本文方法在改进基线方面仍然有效。
弹性推理旨在提供动态推理能力以满足不同部署场景的需求。表3结果进一步凸显了CoLM在实现弹性推理方面的潜力。
从图5可以看出，在参数量相近的情况下，CoLM-Air相比LLaMa实现了更快的预填充速度。随着序列长度的增加，CoLM-Air在预填充阶段能获得更显著的速度提升。这充分证明了CoLM-Air能有效加速预填充过程。
得益于CoM架构的因果特性，CoLM由多个链式模块组成，其中每个链都能继承前序链的能力。基于这一特性，本文提出链式调优（ChainTuning）方法——在冻结前几个链的同时仅对后续链进行微调。该方法通过保留初始链参数，既能降低约42%的调优成本，又可有效缓解灾难性遗忘问题。
此外，当采用CoLM-Air配置并冻结首链时，经微调模型产生的键值对可无缝迁移至原始模型，无需额外计算。实验表明，链式调优仅需微调约42%的模型参数即可提升性能，且能与LoRA等参数高效微调方法兼容。
本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。
收藏，分享、在看，给个三连击呗！