何恺明2025新作的即插即用核心算法-DyT!!


何恺明2025新作的即插即用核心算法-DyT!!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

论文题目:TransformerswithoutNormalization
论文地址:https ://arxiv.org/pdf/2503.10622
代码地址:https ://jiachenzhu.github.io/DyT/
与归一化层需要计算激活统计量(如均值和方差)不同,DyT无需进行此类计算,从而简化了操作。
通过分析训练好的网络中归一化层的行为,发现这些层的输入输出关系呈现出类似tanh的S形曲线,这表明归一化层在Transformer中引入了强烈的非线性,有助于增强模型的表示能力。
本文的主要研究方法是提出了一种名为DynamicTanh(DyT)的新型操作,用以替代Transformer架构中的归一化层。DyT的核心思想是通过一个简单的逐元素操作来模拟归一化层的行为,同时避免了传统归一化层计算激活统计量的复杂性。具体来说,DyT操作定义为DyT(x)=tanh(αx),其中α是一个可学习的参数,用于调整输入x的缩放比例,而tanh函数则负责对极端值进行非线性压缩。这种设计既保留了归一化层对激活值范围的调节功能,又简化了计算过程。
本图展示了原始Transformer块(左)和使用DyT替换归一化层后的Transformer块(右)。图中可以看到,DyT作为LayerNorm的直接替代品,被插入到注意力模块和前馈网络模块中,展示了DyT在Transformer架构中的集成方式。

本图展示了按令牌和通道分组的LN层输出。图中可以看到,每个令牌的激活值在不同通道上形成直线,但整体呈现出非线性的tanh形状曲线。这说明LN层在每个令牌上进行线性变换,但对于整个输入张量的激活值来说,这种线性并不成立,而呈现出非线性的S形。
本表格展示了DyT(DynamicTanh)与RMSNorm在LLaMA7B模型中的效率对比,具体包括推理和训练阶段的总时间消耗。结果显示,DyT在推理和训练过程中都显著减少了计算时间。在推理时间方面,RMSNorm需要2.1秒,而DyT仅需1.0秒,减少了52.4%;训练时间方面,RMSNorm需要14.1秒,DyT则为13.0秒,减少了7.8%。对于整个模型,DyT在推理时间上比RMSNorm减少了42.2%,在训练时间上减少了8.2%。这些结果表明,DyT不仅在单层的计算效率上优于RMSNorm,而且在整体模型的推理和训练过程中也表现出更高的效率,使其成为面向效率的网络设计的一个有前途的选择。
–END–
关注“学姐带你玩AI”公众号,回复“T创新”
领取transformer改进论文合集+开源代码
往期精彩阅读
👉kaggle比赛baseline合集
👉经典论文推荐合集
👉人工智能必读书籍
👉本专科硕博学习经验
评论区留言参与讨论嗷


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录