LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

发布日期: 2025-06-14

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

机器之心报道
编辑：Panda
近段时间，关于AI自我演进/进化这一话题的研究和讨论开始变得愈渐密集。
本月初我们就曾梳理报道了一些，包括SakanaAI与不列颠哥伦比亚大学等机构合作的「达尔文-哥德尔机（DGM）」、CMU的「自我奖励训练（SRT）」、上海交通大学等机构提出的多模态大模型的持续自我改进框架「MM-UPT」、香港中文大学联合vivo等机构的自改进框架「UI-Genie」，参阅文章《LSTM之父22年前构想将成真？一周内AI「自我进化」论文集中发布，新趋势涌现？》
那之后，相关研究依然还在不断涌现，以下拼图展示了一些例子：
而前些天，OpenAICEO、著名𝕏大v山姆・奥特曼在其博客《温和的奇点（TheGentleSingularity）》中更是畅想了一个AI/智能机器人实现自我改进后的未来。他写道：「我们必须以传统的方式制造出第一批百万数量级的人形机器人，但之后它们能够操作整个供应链来制造更多机器人，而这些机器人又可以建造更多的芯片制造设施、数据中心等等。」
不久之后，就有𝕏用户@VraserX爆料称有OpenAI内部人士表示，该公司已经在内部运行能够递归式自我改进的AI。这条推文引起了广泛的讨论——有人表示这不足为奇，也有人质疑这个所谓的「OpenAI内部人士」究竟是否真实。
https ://x. com/VraserX/status/1932842095359737921
但不管怎样，AI也确实正向实现自我进化这条路前进。
MIT昨日发布的《Self-AdaptingLanguageModels》就是最新的例证之一，其中提出了一种可让LLM更新自己的权重的方法：SEAL🦭，即Self-AdaptingLLMs。在该框架中，LLM可以生成自己的训练数据（自编辑/self-editing），并根据新输入对权重进行更新。而这个自编辑可通过强化学习学习实现，使用的奖励是更新后的模型的下游性能。
论文标题：Self-AdaptingLanguageModels
论文地址：https ://arxiv. org/pdf/2506. 10943
项目页面：https ://jyopari. github.io/posts/seal
代码地址：https ://github. com/Continual-Intelligence/SEAL
这篇论文发布后引发了广泛热议。在HackerNews上，有用户评论说，这种自编辑方法非常巧妙，但还不能说就已经实现了能「持续自我改进的智能体」。
论文一作AdamZweiger也在𝕏上给出了类似的解释：
也有人表示，这表明我们正在接近所谓的事件视界（eventhorizon）——这个概念其实也出现在了山姆・奥特曼《温和的奇点》博客的第一句话，不过奥特曼更激进一点，他的说法是「我们已经越过了事件视界」。简单来说，eventhorizon（事件视界）指的是一个不可逆转的临界点，一旦越过，人类将不可避免地迈入某种深刻变革的阶段，比如通向超级智能的道路。
当然，也有人对自我提升式AI充满了警惕和担忧。
下面就来看看这篇热门研究论文究竟得到了什么成果。
自适应语言模型（SEAL）
SEAL框架可以让语言模型在遇到新数据时，通过生成自己的合成数据并优化参数（自编辑），进而实现自我提升。
该模型的训练目标是：可以使用模型上下文中提供的数据，通过生成token来直接生成这些自编辑（SE）。
自编辑生成需要通过强化学习来学习实现，其中当模型生成的自编辑在应用后可以提升模型在目标任务上的性能时，就会给予模型奖励。
因此，可以将SEAL理解为一个包含两个嵌套循环的算法：一个外部RL循环，用于优化自编辑生成；以及一个内部更新循环，它使用生成的自编辑通过梯度下降更新模型。
该方法可被视为元学习的一个实例，即研究的是如何以元学习方式生成有效的自编辑。
通用框架
令θ表示语言模型LM_θ的参数。SEAL是在单个任务实例(C,τ)上运作，其中C是包含与任务相关信息的上下文，τ定义了用于评估模型适应度（adaptation）的下游评估。
比如，在知识整合任务中，C是旨在整合到模型内部知识中的段落，τ是关于该段落的一组问题及其相关答案。而在少样本学习任务中，C包含某个新任务的少样本演示，τ是查询输入和ground-truth输出。
给定C，模型会生成一个自编辑SE（其形式因领域而异），并通过监督微调更新自己的参数：θ′←SFT(θ,SE)。
该团队使用了强化学习来优化自编辑的生成过程：模型执行一个动作（生成SE），再根据LM_θ′在τ上的表现获得奖励r，并更新其策略以最大化预期奖励：
不过，与标准强化学习设置不同，在这里的设置中，分配给给定动作的奖励取决于执行动作时的模型参数θ（因为θ会更新为θ′，然后再被评估）。
如此一来，底层的强化学习状态必定会包含策略的参数，并由(C,θ)给出，即使策略的观测值仅限于C（将θ直接置于上下文中是不可行的）。
这意味着，使用先前版本模型θ_old收集的(state,action,reward)三元组可能会过时，并且与当前模型θ_current不一致。因此，该团队采用一种基于策略的方法，其中会从当前模型中采样自编辑SE，并且至关重要的是，奖励也会使用当前模型进行计算。
该团队尝试了各种在线策略方法，例如组相对策略优化(GRPO)和近端策略优化(PPO)，但发现训练不稳定。

ReST^EM可以被视为一个期望最大化(EM)过程：E-step是从当前模型策略采样候选输出，M-step是通过监督微调仅强化那些获得正奖励的样本。这种方法可在以下二元奖励下优化目标(1)的近似：
更准确地说，在优化(1)时，必须计算梯度。然而，在这里的设置中，奖励项r(SE,τ,θ_t)取决于θ_t，但不可微分。为了解决这个问题，该团队的做法是将奖励视为相对于θ_t固定。通过这种近似，对于包含N个上下文和每个上下文M个采样得到自编辑的小批量，其蒙特卡洛估计器变为：
其中p_θ_t表示模型的自回归分布，y_s^(i,j)是自编辑SE_ij的第s个token，即上下文C_i的第j个样本。由于在(4)中可以忽略r=0的序列，该团队研究表明：在二元奖励(2)下（对奖励项应用停止梯度），ReST^EM只需使用简单的「在好的自编辑上进行SFT」，就能优化(1)。算法1给出了SEAL的训练循环。
最后，他们还注意到，虽然本文的实现是使用单个模型来生成自编辑并从这些自编辑中学习，但也可以将这些角色分离。在这样一种「教师-学生」形式中，学生模型将使用由另一个教师模型提出的编辑进行更新。然后，教师模型将通过强化学习进行训练，以生成能够最大程度提高学生学习效果的编辑。
针对具体领域实例化SEAL
理论有了，该团队也打造了SEAL的实例。具体来说，他们选择了两个领域：知识整合和少样本学习。
其中，知识整合的目标是有效地将文章中提供的信息整合到模型的权重中。下图展示了相关设置。
而下图则给出了少样本学习的设置。
对这两种实例化的更详细描述请访问原论文，下面来看看SEAL的实际表现。
实验结果
少样本学习
实验所用的模型是Llama-3. 2-1B-Instruct，基准为ARC。参与对比的方法包括ICL（上下文学习）、TTT+自编辑（无强化学习）、OracleTTT。结果见下表。
可以看到，与基线相比，SEAL显著提高了适应成功率：72. 5%vs. 20%（使用基础模型的自编辑但未进行强化学习训练）和0%（无适应），但性能仍低于OracleTTT，表明新方法仍有进一步改进的空间。
知识整合
知识整合则使用了更大一些的Qwen2. 5-7B，目标是整合SQuAD文章中的新事实内容。这里对比的方法包括基础模型、仅在文章上训练的模型、在文章+合成数据训练的模型、在文章+GPT-4. 1合成数据上训练的模型。结果见下表。
可以看到，在单篇文章（n=1）和持续预训练（n=200）这两种情况下，SEAL方法的准确度表现都超过了基准。
首先使用基础Qwen-2. 5-7B模型生成的合成数据训练后，模型的表现已经能获得明显提升，从32. 7%分别提升到了39. 7%和41. 0%，之后再进行强化学习，性能还能进一步提升（47. 0%和43. 8%）。
图4展现了每次外部强化学习迭代后的准确度。
可以看到，两次迭代足以使SEAL超越使用GPT-4. 1数据的设置；后续迭代的收益会下降，这表明该策略快速收敛到一种将段落蒸馏为易于学习的原子事实的编辑形式（参见图5中的定性示例）。
在这个例子中，可以看到强化学习如何导致生成更详细的自编辑，从而带来更佳的性能。虽然在这个例子中，进展很明显，但在其他例子中，迭代之间的差异有时会更为细微。
另外，该团队也在论文中讨论了SEAL框架在灾难性遗忘、计算开销、上下文相关评估方面的一些局限，详见原论文。
最后，来个小调查，你认为真正的自我进化式AI将在何时实现？
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin. com