时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8


时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

在大语言模型蓬勃发展的背景下,Transformer架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题,成为众多研究试图突破的重点,但Transformer在推理时灵活建模长距离上下文的能力,使得许多线性复杂度的替代方案(如RNN、LinearAttention、SSM等)难以真正取代它的地位。
尤其是在大语言模型广泛采用decoder-only架构之后,自注意力机制的重要性进一步凸显。然而,这种机制也带来新的挑战:推理过程中每一步都需要访问Key-Value(KV)缓存,该缓存的大小随着生成序列长度线性增长,逐渐成为影响推理效率的关键瓶颈。随着模型参数维度不断扩大,KV缓存所需的显存和带宽开销显著上升,限制了模型的推理长度与可支持的batchsize。
值得一提的是,近期由DeepSeek团队提出的MLA机制,通过在隐空间维度对KV缓存进行压缩,显著提升了推理效率,推动了大模型在低资源场景下的高效部署。但随着生成序列的持续增长,时间维度的冗余信息也逐渐暴露,压缩其所带来的潜力亟待挖掘。然而,如何在保持性能的前提下压缩时间维度,一直受到增量式推理复杂性的限制。
为此,剑桥大学机器智能实验室最新提出了Multi-headTemporalLatentAttention(MTLA),首次将时序压缩与隐空间压缩相结合,在KV缓存的两个维度上同时施加时空压缩策略。MTLA利用超网络动态融合相邻时间步的信息,并设计了步幅感知的因果掩码以确保训练与推理的一致性,在显著降低推理显存与计算成本的同时,保持甚至略优于传统注意力机制的模型性能,为大语言模型推理效率的提升提供了新的解决思路。
论文标题:Multi-headTemporalLatentAttention
论文地址:https ://arxiv. org/pdf/2505. 13544
项目地址:https ://github. com/D-Keqi/mtla
现有方法的局限与MTLA的突破
在构建大语言模型时,KV缓存带来的显存与计算开销问题早已受到广泛关注。当前主流的大模型通常采用基于自注意力的Grouped-QueryAttention(GQA)机制,对标准Transformer中的Multi-HeadAttention(MHA)进行改进。GQA通过减少Key/Value头的数量来减小KV缓存的规模,具体做法是将多个Query头分组,每组共享同一个KV头。
当GQA的组数等于Query头数量时,其等价于标准MHA;而当组数为1时,即所有Query头共享同一组KV,这种极端形式被称为Multi-QueryAttention(MQA)。虽然MQA极大地减少了显存占用,但显著影响模型性能;相比之下,GQA在效率与效果之间取得了更好的平衡,因此成为当前大语言模型中最常见的注意力变体。
与此不同,DeepSeek团队提出的Multi-headLatentAttention(MLA)采用了另一种思路:不减少头的数量,而是在隐空间中压缩KV的特征维度。实验结果表明,MLA相较于GQA表现出更优的性能与效率。然而,这种压缩方式仍存在上限,为了维持模型性能,隐空间维度的压缩幅度不能过大,因此KV缓存的存储开销依然是限制模型推理效率的一大瓶颈。
除了在隐空间对KV缓存进行压缩之外,时间维度也是一个极具潜力但尚未充分挖掘的方向。随着生成序列变得越来越长,KV缓存中在时间轴上的信息冗余也日益明显。然而,由于自注意力机制在生成时通常采用自回归的增量推理模式,KV缓存与每一个生成的token是一一对应的,这使得在保持模型性能的前提下压缩时间维度成为一项挑战,也导致了该方向长期缺乏有效解决方案。
MTLA的提出正是对这一空白的回应。它通过引入时间压缩机制和步幅感知的因果掩码,巧妙解决了训练与推理行为不一致的问题,在保持高效并行训练能力的同时,实现了推理过程中的KV时间压缩。进一步地,MTLA还结合了MLA的隐空间压缩策略,从空间与时间两个维度同时优化KV缓存的表示,将自注意力机制的效率推向了新的高度。
MTLA的核心技术与训练策略
在增量推理阶段,MTLA会对经过隐空间压缩后的KV缓存进行时间维度的增量式合并,进一步压缩存储空间。上图展示了该过程的示意,并与标准的MHA进行了对比。
以时间压缩率s=2为例,每两个相邻的KV缓存将合并为一个。在生成第一个字符时,KV缓存长度为1;生成第二个字符后,新生成的KV与前一个被合并,KV缓存长度仍然保持为1。这种动态合并机制有效压缩了时间维度上的冗余信息。
然而,这也带来了并行训练上的挑战:虽然两个时间步的KV缓存长度相同,但它们所包含的信息不同,若不加以区分,容易导致训练与推理行为不一致。
MTLA通过一种优雅的方式解决了这一问题。正如下图所示,在训练阶段,MTLA保留了所有中间状态的KV表达,并引入了步幅感知因果掩码(stride-awarecausalmask),确保每个query在训练时访问到与推理阶段一致的KV区域,从而准确模拟增量推理中的注意力行为。
得益于这一设计,MTLA能够像标准注意力机制一样通过矩阵乘法实现高效并行计算,在保持训练效率的同时完成对时间维度的压缩。
此外,MTLA还引入了解耦的旋转位置编码(decoupledRoPE)来建模位置信息,并对其进行了时间维度上的压缩,进一步提升了整体效率。
值得强调的是,MTLA不仅是一种更高效的自注意力机制,它还具备极强的灵活性与可调性。例如,当将时间压缩率s设置得足够大时,MTLA在推理过程中几乎只保留一个KV缓存,这种形式本质上就退化为一种线性序列建模方法。换句话说,线性序列建模可以被视为MTLA的极端情况,MTLA在注意力机制与线性模型之间架起了一座桥梁。
然而,在许多复杂任务中,传统注意力机制所具备的二次计算复杂度虽然代价高昂,却提供了更强的建模能力。因此,MTLA所引入的“可调时间压缩率s”这一设计思路,恰恰为模型提供了一个在效率与性能之间灵活权衡的可能空间。
MTLA的卓越性能
MTLA在一系列任务中展现了出色的性能,包括语音翻译,文本摘要生成,语音识别和口语理解。例如在语音翻译中,MTLA在保持与标准MHA相当的翻译质量的同时,实现了超过5倍的推理速度提升,并将推理过程中的GPU显存占用降低了超过8倍。
值得注意的是,仅当时间压缩率s=2时,MTLA对KV缓存的压缩程度就已经与MQA相当,且在模型性能上更具优势。而相比之下,MQA所采用的减少KV头数量的方法已达上限,而MTLA还有进一步的空间。
未来发展
MTLA具备在大规模场景中部署的显著潜力,尤其是在大语言模型参数规模不断扩大、以及思维链等技术推动下生成序列日益增长的背景下,对KV缓存进行时空压缩正是缓解推理开销的关键手段。在这样的趋势下,MTLA有望成为未来大语言模型中自注意力模块的重要替代方案。
当然,与DeepSeek提出的MLA类似,MTLA相较于GQA和MQA,在工程落地方面的改动不再是简单的一两行代码可以实现的优化。这也意味着要将其大规模应用到现有LLM框架中,还需要来自社区的持续推动与协同开发。
为促进这一过程,MTLA的实现代码已全面开源,希望能够为研究者与工程实践者提供便利,共同推动高效注意力机制在大模型时代的落地与普及。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录