用任务向量做模型编辑为何有效?这篇ICLR 2025 Oral论文给出了理论分析


用任务向量做模型编辑为何有效?这篇ICLR 2025 Oral论文给出了理论分析

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

本文作者李宏康,博士毕业于美国伦斯勒理工大学,本科毕业于中国科学技术大学,并即将前往宾夕法尼亚大学担任博士后研究员。研究方向包括深度学习理论、大语言模型理论等等。本文的通讯作者为伦斯勒理工大学的汪孟教授。
任务向量(taskvector)方法近来在许多视觉和语言任务中表现出了在效率与可迁移性方面的优势。但是由于人们尚未深入理解任务向量的理论机制,其在更广泛与更大规模的应用中面临挑战。
近期,一个来自美国伦斯勒理工大学、密歇根州立大学OPTML实验室、和IBM研究院的研究团队从神经网络的优化和泛化理论的角度分析了任务向量在模型编辑中的有效性。该工作已经被ICLR2025录取,并被选为前1.8%的Oral论文。
论文标题:WhenisTaskVectorProvablyEffectiveforModelEditing?AGeneralizationAnalysisofNonlinearTransformers
论文地址:https ://openreview.net/pdf?id=vRvVVb0NAz
背景介绍
任务向量(taskvector)是指微调得到的模型与预训练模型之间的权重差值。人们发现,将不同的任务向量进行线性算术运算后叠加在一个预训练模型上可以直接赋予此模型多种全新的能力,例如多任务学习(multi-tasklearning)、机器遗忘(machineunlearning)、以及分布外泛化(out-of-domaingeneralization),其优势是无需使用下游任务的训练数据对模型进行微调。
这种基于任务向量的直接运算对模型进行编辑从而做下游任务预测的方法被称为任务运算(taskarithmetic)。
由于缺乏对该方法的理论研究,本文重点探索任务向量方法能够被有效且高效使用的深层原因。我们的贡献如下:
我们为任务加法和减法运算的有效性提供了一个特征学习的理论分析框架。
我们给出了任务运算在分布外泛化的理论保证。
解释了任务向量的低秩近似和模型剪枝的理论机制。
初步观察
我们从一个简单的问题出发:组合多个任务向量的系数会受到哪些因素的影响?
直觉告诉我们,任务间的关系可能是一个关键因素。比如说,在多任务学习中,让一个模型具备两个相似任务的能力,理应是更容易的。
为了论证这一点,我们用Colored-MNIST数据集构建了一组二分类实验。其中,分类的标准是数字的奇偶性。我们通过调整数字的颜色来控制任务之间的关系。
于是,我们设计了「相似任务」(alignedtasks)、「无关任务」(irrelevanttasks)、「相反任务」(contradictorytasks)的任务关系。
根据上图所示的实验结果,我们有以下观察:
在多任务学习和机器遗忘的实验中,最佳的任务运算系数会随着给定的任务向量间的关系的不同而改变。
在分布外泛化的实验中,目标任务与给定任务的正反相关性可以被最佳的任务运算系数的正负性反映出来。
以上的两点发现引向了一个重要的研究方向:任务关系会如何影响任务运算。
理论分析
我们在二分类问题的设定下研究该问题。我们以一层单头的带有softmaxattention的Transformer为理论分析的基本模型,用Ψ来表示所有权重参数的集合,其中包括attention层的参数W以及MLP层的参数V。仿照许多特征学习(featurelearning)的理论工作,我们做如下的数据建模:定义μ_T为当前任务的discriminativepattern。数据X中的每一个token都是从μ_T、-μ_T以及无关的pattern中选择的。如果对应于μ_T的token个数多于-μ_T的个数,那么X的标签y=1。如果对应于-μ_T的token个数多于μ_T的个数,那么X的标签y=-1。
接下来我们给出使用两个任务向量进行多任务学习和机器遗忘的理论结果。
具体而言,给定预训练模型以及两个已经被训练到可以取得ϵ的泛化误差的模型所对应的任务向量和,融合得到的模型被计算为。我们定义表示任务T_1与T_2之间的相关性。α>0,=0,<0分别表示任务之间的相似、无关、以及相反关系。β为一个很小的数值。那么我们有以下结果:
定理1的结果表明:当两个任务是相似的关系的时候,将任务向量叠加可以得到理想的多任务学习性能,即泛化误差在两个任务上都达到ϵ。
定理2的结果表明:当两个任务是相反关系时,用T_1的任务向量减去T_2的任务向量可以得到理想的机器遗忘性能,即T_1的泛化误差达到ϵ,而T_2的泛化误差较大。
然后,我们给出利用一组任务向量对一个从未见过的分布外的目标任务T’进行预测的理论结果。我们假设所有给定任务T_i的discriminativepattern互相正交,目标任务T’的discriminativepattern可以被写为各个给定任务的discriminativepattern的线性组合,并以γ_i为第i个任务的discriminativepattern的系数。假设γ_i不全为0。我们有定理3的结果:
定理3的结果表明:总是存在一组λ_i,使得融合多个任务向量得到的模型可以在目标任务T’上取得理想的泛化性能。
我们还在理论上论证了对任务向量进行高效应用的方法。在我们的一层Transformer以及二分类问题的框架下,我们得出了推论1:任务向量可以被低秩近似,同时只会造成很小的预测误差。这意味着人们可以将各种低秩训练和推断方法用在任务向量中,从而大大节省任务向量的计算和存储开销。
我们还可以得到推论2:训练得到的任务向量在MLP层中的部分神经元权重较大,而剩余的神经元权重很小。对这些小的神经元进行剪枝只会引起很小的误差,从而使得前面所有定理依然成立。这个推论为对于任务向量进行权重剪枝与稀疏化提供了理论保障。
实验验证
我们首先用ViT-small/16模型对任务向量的分布外泛化能力进行了测试。我们使用Colored-MNIST数据集设计训练任务T_1,T_2,以及目标测试任务T’,用训练任务的任务向量合成一个模型,即。我们对T’分别与T_1,T_2之间的相关性γ_1,γ_2进行了估计。
我们下图的结果表明:实验中得到的能够带来出色的分布外泛化性能的λ_1,λ_2区域(图A的红色部分)与定理3中证明得到的(图B的红色部分)一致。
我们接下来用Phi-3-small(7B)模型对任务向量在机器遗忘中的表现进行验证,所使用的数据集为《哈利波特I》(HP1),《哈利波特II》(HP2),《傲慢与偏见》(PP)。其中,由于出自相同的作者J.K.罗琳,《哈利波特I》与《II》的语义相似度较高,而《傲慢与偏见》与另外两个数据集不太相似。
下表的结果展示了使用从《哈利波特I》训练得到的低秩任务向量构建模型对三个数据集进行机器遗忘的表现。我们发现通过叠加反向的(λ<0)任务向量,新模型在相似任务上也可以取得很好的遗忘效果,而在不相似任务上的遗忘效果较差。
总结
本文定量证明了如何根据任务间关系确定任务运算系数,从而实现理想的多任务学习、机器遗忘、以及分布外泛化的方法,解释了使用低秩和稀疏任务向量的可靠性。本文的理论通过实验得到了验证。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录