Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术


Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

Meta挖走OpenAI大批员工后,又用OpenAI的技术搞出新突破。
这是什么杀人又诛心(doge)?
新架构名为2-SimplicialTransformer,重点是通过修改标准注意力,让Transformer能更高效地利用训练数据,以突破当前大模型发展的数据瓶颈。
而核心方法,就是基于OpenAI提出的Triton,将标准点积注意力推广到三线性函数。
实验结果显示,在同等参数量和数据量下,相较于传统Transformer,新架构在数学、编程、推理等任务上均有更好的表现。
并且,2-SimplicialTransformer的缩放指数高于传统Transformer——这意味着随着参数增加,新架构加持下的模型性能提升更快,更适用于有限数据的场景。
传统Transformer的核心机制是点积注意力,其计算复杂度较低,但对复杂任务(如逻辑推理、数学运算等)表达能力有限。
针对于此,Meta的这项研究,重点放在将点积注意力从二元线性操作扩展到三元线性操作。
简单来说,就是在计算注意力时引入第三个向量,来增加模型对复杂模式的表达能力。
这第三个向量,是一个新的Key,写为K’,通过三元线性函数计算得到。
K’引入了额外的维度,使得注意力机制能够捕获更加丰富的关系。
举个例子,在处理推理任务时,可以用查询向量Q表示当前问题,用键向量K表示第一个参考信息,用K’表示第二个参考信息。
其中关键的一点在于,相比于点积,三元计算更为复杂。为此,这项研究引入了Triton来实现核心运算。
Triton是一种高效的GPU编程框架,最早由OpenAI提出。它旨在让研究人员无需CUDA经验,就能用较少的代码实现接近于手写CUDA的性能。
研究人员通过Triton实现了520TFLOPS(每秒万亿次浮点运算)的性能。
另外,论文还引入了滑动窗口(SlidingWindow)机制,通过限制注意力的计算范围,来降低计算成本,同时保持较好的性能。
研究人员训练了一系列MoE模型来验证2-SimplicialTransformer的有效性。
模型规模从活跃参数10亿、总参数570亿,到活跃参数35亿、总参数1760亿不等。
在不同任务和模型规模上对比2-SimplicialTransformer和传统Transformer的负对数似然(值越小,说明模型对数据的预测越准确),结果如下:
可以看到,在小模型(1B)上,2-SimplicialTransformer改进有限,在GSM8k、MBPP等任务中甚至出现了较为明显的性能下降。
但在较大模型上,2-SimplicialTransformer表现显著优于传统Transformer。
论文还分析了缩放指数的变化。

不过,研究人员也提到,目前,2-SimplicialTransformer的计算复杂度和延迟仍然较高,Triton虽然高效,但仍需进一步优化以适配生产环境。
新注意力机制引发讨论,而背后的Triton这次也牢牢吸引住了网友们的目光。
用Triton实现三元线性注意力机制?这就像给了模型一把瑞士军刀。
整个Triton库就是一本关于如何不编程的教科书。
合着Meta的论文,这次算是给OpenAI的技术做了宣传了(doge)。
不过反过来也可以说,Meta这波不仅挖走了OpenAI的人,也玩转了OpenAI的技术。
论文地址:https ://arxiv. org/abs/2507. 02754
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
—完—
专属AI产品从业者的实名社群,只聊AI产品最落地的真问题扫码添加小助手,发送「姓名+公司+职位」申请入群~
进群后,你将直接获得:
👉最新最专业的AI产品信息及分析🔍
👉不定期发放的热门产品内测码🔥
👉内部专属内容与专业讨论👂
🌟点亮星标🌟
科技前沿进展每日见


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录