【源头活水】微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好


【源头活水】微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
随着大语言模型(LLM)的出现,扩展Transformer架构已被视为彻底改变现有AI格局并在众多不同任务中取得最佳性能的有利途径。因此,无论是在工业界还是学术界,探索如何扩展Transformer模型日益成为一种趋势。
在此背景下,LLM的参数规模呈指数级增长,从数十亿级增长到数万亿级。因此,其爆炸式增长的参数规模也给训练带来了极其昂贵的负担,并且无法针对不同的部署环境提供不同的推理用途。
鉴于这种日益增长的扩展律,如何开发和有效利用LLM来处理各种场景中的用户指令,已成为整个社区面临的一个开放且关键的挑战。
目前,扩展LLM架构存在以下问题:
与人类智能能够渐进式获取新知识不同,现有的扩展策略无法保留已有知识规模,总是需要从头开始训练,导致效率低下。
现有LLM架构(如密集模型或MoE)始终激活固定规模的参数,缺乏动态适应问题解决能力的机制。
论文标题:Chain-of-ModelLearningforLanguageModel
论文地址:https ://arxiv. org/pdf/2505. 11820
具体而言,本文观察到任何表征总是可以看作是隐藏维度上多个子表征的组合。因此,本文将这种组合定义为表征链,每个子表征对应一条链。基于此定义,通过使用不同数量的前导链(precedingchains),其对应的特征可以用来编码不同的知识(称之为scale),如图1所示。
因此,如何在CoR特征之间建立连接以确保跨尺度的特征转换是非常关键的。
为了实现这一目标,本文接着提出了一种名为模型链(Chain-of-Model,CoM)的新型学习范式,用于建模CoR特征。
其核心思想是在不同尺度之间引入因果依赖关系,确保每个尺度只能使用其前面尺度的信息。为此,本文提出了链式层(Chain-of-Layer,CoL),以基于CoR特征重新构建当前的网络层。
在CoM框架的基础上,本文将CoL的思想应用于Transformer的每一层,重新构建了语言模型架构,并将其命名为语言模型链(CoLM)。
此外,基于CoL准则,本文在注意力模块中进一步引入了键值共享机制,该机制要求所有键和值都在第一个链中进行计算,并将其命名为CoLM-Air。基于此机制,CoLM-Air提供了更高的可扩展性和灵活性。
多个基准测试实验结果表明,CoLM系列模型能够达到相当的性能,同时展现出更好的可扩展性和灵活性。
方法介绍
首先是表征链的定义:
据定义1,每个链对应于CoR中的每个子表征,通过激活前几个链,CoR可以用来编码尺度。因此,CoR允许在单一表示中编码n个不同的尺度。如果n=1,CoR与原始表示相同。图1展示了CoR的概念。
基于上述定义,现在面临的一个挑战是如何设计层来建立CoR输入和CoR输出之间的连接,从而实现多尺度特征转换,同时又能保持输出特征符合定义1中CoR的标准。
这就需要保证每个尺度只能利用其所有前一个尺度的信息,并同时引入Chain-of-Layer将因果关系融入CoR的隐藏状态中,如下所示:
其中,CoL具有三个基本属性——普遍性、因果性和组合性。
最重要的是,CoL支持组合性,这意味着堆叠多个CoL层也能保留CoL的特性。这一特性能够将CoL的范围从层级推广到模型级。
接着本文又给出了第三个定义
根据定义3,如果一个模型满足了CoM的标准,那么它也继承了CoL的所有属性,例如通用性和因果关系。换句话说,任何模型都可以被视为一种CoM(即n=1)。CoM可以将不同规模的多个子模型集成到一个模型中,能够在现有模型的基础上进行扩展。这种能力直接赋予了基础模型更好的可扩展性和灵活性。
接着,文章详细描述了如何将CoM应用于语言模型,包括Linear、Transformer中的每个模块(例如,嵌入、自注意力、前馈、归一化)以及目标函数,并将其称为CoLM(Chain-of-Language-Model)。此外,本文进一步引入了一种基于CoLM框架的键值共享机制,并将其称为CoLM-Air,它提供了更好的灵活性。
图2描述了线性层和Chain-of-Linear层的比较。
图3说明了注意力和注意力链的区别:
对这部分内容感兴趣的读者,可以参考原论文了解更多内容。
实验结果
表1结果表明,CoLM取得了与基线相当的结果,同时提供了更快的预填充速度和更高的灵活性。
考虑到CoM的通用性与因果性,任何模型在链数为1时均可视为CoM的特例,并可扩展至多链结构。因此,本文提出链式扩展(ChainExpansion)方法:以训练完备的模型作为初始链,通过新增链进行扩展。
为验证这一观点,本文选择了两个LLaMA变体(即TinyLLaMA-v1. 1和LLaMA-3. 21B)作为扩展的初始链。
表2结果表明,与TinyLLaMA-v1. 1和LLaMA-3. 2-1B相比,本文分别实现了0. 92和0.14的提升。由于LLaMa-3. 2-1B是更强的基线,因此需要更多计算才能获得显著提升,但本文方法在有限的计算量下仍然可以对其进行改进。总体而言,这些结果也表明,即使在资源受限的情况下,本文方法在改进基线方面仍然有效。
弹性推理旨在提供动态推理能力以满足不同部署场景的需求。表3结果进一步凸显了CoLM在实现弹性推理方面的潜力。
从图5可以看出,在参数量相近的情况下,CoLM-Air相比LLaMa实现了更快的预填充速度。随着序列长度的增加,CoLM-Air在预填充阶段能获得更显著的速度提升。这充分证明了CoLM-Air能有效加速预填充过程。
得益于CoM架构的因果特性,CoLM由多个链式模块组成,其中每个链都能继承前序链的能力。基于这一特性,本文提出链式调优(ChainTuning)方法——在冻结前几个链的同时仅对后续链进行微调。该方法通过保留初始链参数,既能降低约42%的调优成本,又可有效缓解灾难性遗忘问题。
此外,当采用CoLM-Air配置并冻结首链时,经微调模型产生的键值对可无缝迁移至原始模型,无需额外计算。实验表明,链式调优仅需微调约42%的模型参数即可提升性能,且能与LoRA等参数高效微调方法兼容。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录