傅里叶变换太牛了!用傅里叶分析重塑LLMs的周期性感知


傅里叶变换太牛了!用傅里叶分析重塑LLMs的周期性感知

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

重磅干货,第一时间送达
本文转载自:算法狗
大型语言模型(LLMs)是饥渴的——对数据和计算的饥渴。训练它们需要海量的数据和巨大的计算能力。这不禁让人思考,人类在资源有限的情况下也能学习复杂的事物。我们掌握语言、理解模式,并从相对较少的输入中进行泛化。这种效率上的巨大差距表明,当前的LLM架构可能仍然缺少一些关于我们如何学习和理解世界的基本要素。也许它们在从数据中提取潜在知识方面还不够高效。
思考一下人类是如何学习的。生活中充满了节奏、重复和可预测的模式。我们在自然、音乐、日常生活以及语言本身中都能看到这一点。周期性,即这些重复的模式,无处不在(Buzsaki,2006;Lakeetal.,2017)。我们的大脑似乎天生就能识别并利用这些模式来理解世界并高效学习。我们的大脑似乎总是在寻找这些重复结构,以便以更流畅的方式处理信息并构建知识(Zaltaetal.,2020)。
但有趣的问题是:我们当前的Transformer模型,尽管非常强大,是否真的有效地捕捉并利用了语言数据中的这种固有周期性?一些研究人员,如Dong和同事(Liuetal.,2020),开始提出可能并非如此。他们指出,标准的Transformer在建模这些周期性模式时可能存在一些固有局限性,这可能会阻碍其学习效率。就像用优质的砖块建造房屋,却忽略了坚实、有节奏的基础的重要性。
现在,如果我们能够让LLM更好地识别和利用这些周期性模式呢?如果我们能设计一种更适应语言节奏的架构呢?这正是FANformer的用武之地(Dongetal.,2025)。这是一种新架构,试图将傅里叶分析网络(FAN)的力量注入Transformer的注意力机制中。目标是实现更高效的周期性建模,从而提升LLM的学习效率和整体性能。
在本文中,我们将深入探讨FANformer。我们将看看这种方法是否真的能弥合效率差距,并在大型语言模型的惊人世界中释放更多潜力。周期性是否是我们一直在寻找的秘密成分?让我们一起找出答案。
让我们退一步思考一下“周期性”的含义。这个词我们经常听到,但在学习,尤其是像语言这样复杂的领域中,它到底意味着什么?
周期性本质上是关于重复的模式。想想季节的变化、昼夜的节奏、潮汐的涨落——这些都是自然界中的周期性现象。但它不仅限于宏观的宇宙尺度。我们自己的生活也由周期性构成。我们有日常的例行公事、每周的周期,甚至更长的模式塑造了我们的年份。正是这种可预测性,这种固有的节奏,使我们能够以某种程度的信心来驾驭世界。我们预期、准备、学习,因为事物在某种程度上是重复的。
在语言中也不难看到周期性。想想说话的节奏,句子通常遵循可预测的结构,故事中反复出现的主题或对话的循环性质。语言不仅仅是随机的一堆单词;它有自己的模式,自己的节奏。这些模式,这些周期性,可能是微妙的、复杂的、分层的,但它们无疑是存在的。
有人可能会说,我们的大脑在一个充满周期性模式的世界中进化,已经变得非常擅长检测和利用它们。也许这就是为什么我们作为孩子能够如此直观地掌握语言,捕捉到那些结构化的微妙线索和重复。这就像学习跳舞——你不仅仅是记住步骤,而是内化了节奏,音乐的潜在周期性结构,然后动作就会更自然地流动。
现在,让我们回到Transformer。这些架构,特别是注意力机制,无疑是强大的。它们之所以彻底改变了自然语言处理(NLP),正是因为它们非常擅长捕捉序列中单词之间的关系,无论距离多远。注意力机制允许模型在处理信息时权衡输入的不同部分的重要性。这有点像有一个聚光灯,可以聚焦在句子的相关部分以理解其含义。
然而,虽然标准的Transformer擅长捕捉这些关系,但其核心机制可能在时间上对局部性有固有的偏见。标准的注意力机制,通过其线性投影,可能非常有效地捕捉即时依赖关系——句子中彼此靠近且相互影响的单词。但是,它们是否同样擅长捕捉那些跨越句子、段落甚至整个文档的长距离周期性依赖关系?这就引出了一个问题:标准的Transformer是否真的优化了捕捉周期性的本质?
一些研究人员认为,Transformer的优势——它们专注于局部关系的能力——在周期性方面可能也是一个轻微的弱点。它们使用的线性投影可能非常擅长捕捉即时上下文,但可能不太适合明确建模和表示在较长文本或数据中重复的模式。这就像拥有一个出色的特写镜头,但可能错过了更广阔的视野。
(图1a)Transformer和FANformer在周期性建模上的表现——图片摘自FANformer论文
为了说明这一点,考虑FANformer论文(Dongetal.,2025)中的一个简单例子。他们展示了即使对于像学习简单的模函数(如“xmod5”)这样基本的东西,标准的Transformer也会挣扎,即使提供了足够的数据和模型容量。这在图中可视化(论文中的图1a)。这是一个看似简单的周期函数,但Transformer并没有像预期的那样高效地掌握它。这暗示了一个潜在的盲点。如果Transformer在处理显式周期性时都感到困难,那么在语言数据的广阔海洋中隐藏的更为隐晦、微妙的周期性呢?
这让我们回到了问题的核心:大型语言模型中的周期性建模挑战。语言数据虽然在严格的数学意义上并不完全周期性,但无疑在各个层面上都充满了重复的模式。从句子结构到话语组织,从风格选择到主题重复,周期性被编织进了语言的织物中。
如果LLM要真正掌握语言,像人类一样高效地学习和泛化,也许它们需要更好地识别和利用这些周期性模式。如果标准的Transformer在这方面确实存在一定的局限性,那么改进其架构就有一个真正的机会。通过明确地结合设计用于建模周期性的机制,我们或许能够创建出不仅学习效率更高,而且在语言理解上更具洞察力和鲁棒性的LLM。
这就是FANformer背后的激动人心的前提。它试图通过将傅里叶分析网络原理直接集成到Transformer的注意力机制中来应对这一潜在的限制。目标是使这些模型更具“周期性意识”,使它们能够利用语言数据的节奏脉搏,并从中更有效地学习。但FANformer究竟是如何实现这一点的?这就是我们需要深入探讨其数学原理的地方,我们将在接下来进行探讨。
那么,FANformer是如何将周期性这一概念融入其中的呢?其魔力似乎在于它如何修改注意力机制。FANformer的核心是利用傅里叶分析网络(FAN),这是一个本身就非常有趣的概念,将傅里叶原理引入其中(Dongetal.,2024b)。让我们一步一步地解构这一点,因为这个想法虽然优雅,但确实涉及一些数学基础。
FANformer的基础自然是傅里叶分析网络,即FAN。如果你曾经涉足信号处理或音乐,你可能对傅里叶分析有所了解。本质上,它是一种将复杂信号分解为不同频率的简单正弦波(正弦和余弦)之和的方法。想象一下将复杂的和弦分解为其单个音符。每个音符都有一个频率,和弦就是这些频率的组合。
FAN将这一原理应用于神经网络。核心思想是,我们可以在神经网络层中明确编码周期性模式,而不是仅仅使用标准的线性变换。这是通过专门设计的FAN层实现的。
FAN层,如FANformer论文(Dongetal.,2025)所述,是将周期性注入模型的关键组件。让我们看看它的公式:
现在,让我们逐条分解。在这里,X是我们的输入——可以将其视为网络中某一层的token的隐藏表示。W_p和W’_p是可学习的投影矩阵,就像任何神经网络层中的权重一样。B_p是一个偏置项,也是可学习的。sigma是一个非线性激活函数——在原始的FAN论文中,可能是ReLU或GELU,尽管FANformer论文稍后会在ATF中使用一个稍微不同的变体。符号||表示连接,意味着我们将不同操作的输出并排连接在一起。
有趣的部分是前两个部分:cos(W_pX)和sin(W_pX)。这就是傅里叶魔法的所在。通过将输入X乘以投影矩阵W_p,然后取结果的余弦和正弦,我们实际上是将输入投影到频域。回想一下我们的和弦类比。这些余弦和正弦函数就像捕捉输入数据中存在的不同“频率”或周期性。这是一种明确表示输入中周期性方面的方式,而标准的线性层可能无法做到这一点。
第三个部分,sigma(W’_pX+B_p),更类似于标准的神经网络层。它是一个线性变换后跟一个非线性。这一部分似乎是为了保持标准层的通用建模能力,使FAN层也能够捕捉非周期性特征。
因此,FAN层是一个聪明的混合体。它结合了傅里叶级数的显式周期性编码(通过余弦和正弦项)和标准神经网络层的通用表示能力。理论上,这应该使网络对数据中的周期性模式更加敏感,同时仍然保留其建模更一般特征的能力。
现在,这个FAN层是如何集成到注意力机制中以创建注意力-傅里叶(ATF)模块的呢?FANformer的作者采用了一种相当优雅的方法。他们没有完全改造注意力机制,而是在注意力计算本身之前修改了特征投影过程。
让我们回顾一下标准的注意力机制。它涉及将输入投影到查询(Q)、键(K)和值(V)矩阵中,然后基于Q和K计算注意力权重,以加权V中的值。FANformer的ATF模块通过首先将输入X通过FAN层的一个变体(他们称之为FANLayer’)来修改这一点。这个变体与我们刚才讨论的略有不同:
注意关键区别:第三个部分中的激活函数sigma被替换为恒等函数——它只是(B_p+W_pX)。在论文中,他们提到在这个特定的ATF模块应用中,他们发现使用恒等函数效果更好。也许是因为他们希望在这个阶段保留更多的线性信息,使后续的注意力机制能够更好地处理频域表示。这是一个微妙但可能重要的设计选择,表明即使在FAN框架内,也有实验和微调的空间。
一旦我们有了这个X_F,它现在包含了周期性编码的特征,我们用它来计算查询、键和值投影:
在这里,W_Q、W_K、W_V再次是可学习的投影矩阵,就像标准注意力中一样。关键点是,这些投影现在基于X_F,即输入的周期性增强表示,而不是原始输入X本身。
最后,注意力计算本身与标准注意力基本相同:
我们计算Q_F和K_F^T的点积,通过维度d_h的平方根进行缩放,应用softmax得到注意力权重,然后使用这些权重对V_F进行加权。核心的注意力机制仍然存在,但它现在操作的是从周期性感知表示X_F派生的查询、键和值矩阵。
本质上,FANformer并没有抛弃Transformer的注意力机制。相反,它巧妙地增强了它。它通过FAN层对输入特征进行预处理,以明确编码周期性,然后将这些增强的特征输入到标准的注意力计算中。这是一种使注意力机制本身对数据中可能存在的节奏模式更加敏感的方式。
虽然这个数学公式清晰地展示了FANformer如何集成周期性,但值得注意的是,这只是其中一种方法。可能还有其他方法可以将周期性注入注意力,例如通过修改注意力权重本身或使用不同类型的周期函数。然而,FANformer的方法在其简单性和优雅性方面具有吸引力——它以最小侵入性但可能非常有效的方式建立在现有的Transformer框架之上。
像任何架构创新一样,FANformer带来了潜在的好处,但也有其自身的考虑因素和局限性。
让我们从积极的一面开始。FANformer论文(Dongetal.,2025)强调了几个关键优势,从我们的探索中可以看出这些优势的来源。
如下
(图3)模型参数和训练token扩展时的语言建模损失。左:从268M到7B参数的LLM训练。右:我们每20Btoken评估1.0BLLM,最多200Btoken——图片摘自FANformer论文
FANformer最引人注目的论点之一是其提高学习效率的潜力。论文中的实验结果,特别是图1(a)和图3(上图),确实表明FANformer在使用更少资源的情况下,能够实现与标准Transformer相当甚至更好的性能。
想一想:如果FANformer确实更擅长捕捉和利用语言中的固有周期性模式,那么它从相同数量的数据中提取更多信号是合理的。这就像一个特别擅长识别模式的学生——他们可能更快地掌握概念,并且需要更少的例子来有效地学习,相比之下,那些难以看到底层结构的人则不然。这反映在FANformer在论文中观察到的更快收敛和更好的损失曲线上,特别是在周期性建模任务中。
在LLM的背景下,这种效率提升可能是显著的。它可以转化为更快的训练时间、降低的计算成本,甚至可能使训练高性能模型所需的数据集更小。在一个训练LLM变得越来越耗费资源的世界中,任何承诺更高效率的架构都值得注意。
可扩展性是LLM的另一个关键方面,FANformer在这方面也显示出潜力。论文中的图3表明,随着模型大小和训练token的增加,FANformer保持了对标准Transformer的性能优势。
这表明,周期性建模的好处不仅限于较小的模型或数据集。相反,它们似乎有效地扩展,随着我们构建更大、更强大的LLM,这种优势变得更加明显。也许,随着模型规模的增加,它们提取和利用复杂周期性特征的能力也随之增强,而FANformer特别适合利用这一点。
这非常令人鼓舞。这意味着FANformer不仅仅是一个针对特定任务的利基架构,而可能是构建下一代大规模语言模型的坚实基础。事实上,它在某些扩展实验中以较少的参数(如论文中所述,约为标准Transformer参数的69.2%)实现了相当的性能,这是其参数效率的一个强有力的指标,对于可扩展模型来说,这是一个非常理想的特性。
除了效率和可扩展性,FANformer还暗示了改进的泛化能力和更强的基于规则的推理能力。这是一个更微妙的优势,但可能非常重要。
图5:FANformer和Transformer在模加法和线性回归任务上的表现——图片摘自FANformer论文
FANformer论文中的图5,展示了在模加法和线性回归任务上的表现,非常具有启发性。标准的Transformer虽然在训练集上达到了接近完美的准确率,但在泛化到未见过的测试数据时却表现不佳,表现出Hu等人(2024)所描述的“空洞”现象。相比之下,FANformer似乎缓解了这个问题,在这些任务上表现出更好的泛化性能。
为什么会这样?也许通过明确建模周期性,FANformer被鼓励学习底层规则和原则,而不是简单地记忆训练数据中的模式。这就像学习语法规则与仅仅记忆句子的区别。基于规则的学习,虽然最初可能较慢,但通常能更好地泛化到新情况。FANformer在这些需要基于规则推理的合成任务上的改进表现表明,它可能确实在推动模型朝着更基于规则的学习范式发展。
这是一个令人着迷的前景。如果FANformer能够真正增强基于规则的推理,它可能会导致LLM不仅擅长模仿语言,而且对其底层结构和逻辑有更深的理解,从而使它们在现实世界的应用中更加稳健和可靠。
最后,也许是最根本的,FANformer的核心优势是其明确的周期性意识。通过设计,它结合了检测和利用周期性模式的机制。正如我们之前讨论的,周期性是人类生活和语言的一个普遍特征,直觉上,设计为对这些模式敏感的模型可能更适合理解和生成语言。
虽然标准的Transformer非常灵活和强大,但它们并不是明确设计来建模周期性的。FANformer通过集成傅里叶原理,采取了一种更直接和有意的方法。这就像用专门设计用于处理节奏结构的工具建造房屋,而不是仅仅使用通用工具。这种对周期性的明确关注可能是FANformer在学习效率、可扩展性和泛化方面具有优势的原因。
当然,没有架构是完美的,FANformer虽然前景光明,但也有其局限性和需要进一步考虑的领域。
一个潜在的缺点是ATF模块与标准注意力相比增加了复杂性。虽然FANformer旨在简化集成,但FAN层本身确实增加了一层计算,涉及余弦和正弦操作以及线性变换。
虽然这种增加的复杂性可能相对较小,但它仍然是一个权衡。在某些资源受限的场景中,FAN层增加的计算成本可能是一个因素。然而,值得注意的是,FANformer论文强调整体架构仍然相对简单高效,实验结果表明性能和效率的提升通常超过了这种增加的复杂性。这是为了特定目的(周期性建模)的有针对性的复杂性,而不是一般的、无指导的复杂性。
如下
图6:FANformer中超参数p对其训练损失和下游任务性能的影响——图片摘自FANformer论文
另一个考虑因素是超参数’p’,它控制FAN层中周期性建模的比例。正如FANformer论文所探讨的(图6——上图),’p’的最佳值可能需要调优,甚至可能取决于模型的大小。
虽然超参数调优是深度学习中常见的方面,但它确实增加了模型开发和部署的复杂性。’p’的最佳值可能随模型规模变化的事实表明,找到正确的值可能需要一些实验,并且可能无法在不同模型大小之间完美泛化。然而,论文还指出,FANformer对’p’的变化表现出鲁棒性,并且在一系列’p’值上始终优于Transformer,这是令人放心的。可能虽然调优’p’对于最大化性能很重要,但即使’p’设置不理想,FANformer仍然提供了好处。
在我们深入探讨了FANformer的架构、数学原理和潜在优势之后,是时候得出一些结论了。FANformer在大型语言模型的宏大图景中真正代表了什么,它可能将我们引向何方?
FANformer是我们构建更高效、更强大的LLM的征程中的一个重要进步。通过巧妙地将傅里叶分析网络编织到Transformer注意力机制的结构中,FANformer开创了一条通向周期性感知架构的道路。
实验结果虽然是初步的,但描绘了一幅引人注目的画面。FANformer在各种规模上均优于标准Transformer,用更少的参数和训练令牌实现了可比的结果,突显了其卓越的学习效率和可扩展性。这些不仅仅是渐进式的改进;它们暗示了周期性建模带来的更根本的优势。
此外,FANformer改进的泛化能力及其处理基于规则的推理任务的新兴能力表明,它可能正在促进对语言的更深入、更稳健的理解。就好像通过调整语言的节奏脉搏,FANformer不仅在学习模仿,而且在真正掌握支配语言的基本原理。
周期性是解锁下一级LLM能力的关键吗?FANformer无疑是一个令人信服的案例。旅程才刚刚开始,我很高兴看到这条有节奏的道路将引领我们走向何方。
References

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录