RL x LLM 时代：通向 AGI 的四层阶梯

发布日期: 2025-04-24

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

作者：孙浩；编辑：青稞https ://zhuanlan.zhihu.com/p/1896382036689810197
2025年伊始，RL以一种破局归来的姿态在LLM的后训练时代证明了其巨大价值，Sutton和Barto拿了图灵奖，DavidSilver去年在RLC上说“（RL受关注的程度）终将跨越LLM带来的低谷”，竟然来得如此之快。

OpenAI姚顺雨：欢迎来到AI下半场！
距离AlphaGo击败李世石已经快有十年，这期间RL征服了各种棋类游戏，即时策略游戏，也被应用到了各种系统的性能优化当中。在这些任务中，RL总能找到比人类专家更好的策略，它能将优化做到极致。也有在持续训练中不断提升的潜力。RL找到的策略和解决方案，可以给人类专家带来启发——虽然这并不容易。一个著名的例子是AlphaGo的”Move37”，它被当作“RL具有创造力”的验证。
另一方面，数据驱动的生成模型在更好的架构，更稳定的优化器，更强的算力，更科学的算法，种种buff加持之下不断朝着scalinglaw的前沿推进。如今包括Sora，StableDiffusion，GPT在内的这些模型已经可以很好地理解用户，按照指令生成能让用户满意（甚至惊喜）的文字，图片，和视频。
然而，世界上的数据总量是有限的，即使ScalingLaw总是成立，数据也迟早会枯竭。数据驱动的生成模型虽然有诸多优势——比如在小样本上极强的泛化能力，强大的指令跟随能力，以及自然语言模型天然的可解释性——然而这些模型不具备RL系统所拥有的创造力，持续进步提升的能力，和纠错的能力，也无法超越人类的专家水平。
那么，有没有可能有一个系统，它可以和Data-Driven的大模型一样去理解、帮助人，同时又可以不断迭代更新自己，纠错和变强呢？
•从LLM4RL的角度来说，如果我们能用LLM实现super-humanperformance，那么用自然语言为媒介可以更加容易地把这些RL系统的创造力用来启发人类。
•从RL4LLM的角度来说，RL可以赋予LLM不断提升（由Reward定义的任务上性能）的能力。如果把Alignment和Post-train统一地定义为提升特定方向的能力，那post-train/alignment的优化方向本身就是和RL这一学习范式非常契合的。
在数学领域，去年AlphaProof+AlphaGeometry2拿了IMO的银牌，今年DeepSeekR1的风已经席卷了全世界；在通用聊天领域，RLHF里如火如荼的_PO研究已经即将用尽字母表，庞大的用户规模加上preference标注为OpenAI提供了源源不断建模用户偏好，改进用户体验的数据。这些都是RL+LLM的成功。那么，如果想要把RL+LLM这一范式推广到更多的场景，我们面临的困难是什么？比较有潜力的解决方案是什么？这正是我们之前的Tutorial希望重点向大家介绍的——当前的LLMAlignment是一种数据驱动（人类经验驱动）的RL，InverseRL是这里最自然和简单的方案。
LLM从人类生成的数据或反馈中学习——也就是Silver&Sutton文章里所说的”Human-CenteredAI”。过去两年我参与的IRLxLLM的研究也围绕着“如何从不同数据中构建更好的奖励模型”进行探索*。
既然是探索，当然不该止步于“什么方案最简单，最自然”，也要想未来进一步优化的方向在哪里。
相比LLM，人类的学习似乎“容易”很多，人类不需要也不可能看完所有的书，电视，电影，不会去过所有的地方，但一样可以拥有（更）高程度的智能——可以理解世界，推理，创造，交流，学习。人先在成长初期通过语言学习，交互，理解；同时通过和世界的简单交互了解非常简单的”物理”(worldmodel,laws)；后来习得书写和文字，又在游戏/虚拟世界中学习，学会从互联网上主动寻找有用的信息，最终通过和世界以及社会的交互不断提升能力。我想这恰好可以对应LLM+RL发展的四个不同阶段：Data-Driven，Game，VirtualInteraction，PhysicalInteraction。（人类在学习过程中，除了幼儿时期学语言几乎严格早于其他三者，剩下的学习过程是持续，同步发生的，这里的层级递进关系不一定成立。从LLM->AGI的角度，分成这几层主要是考虑到实现起来的困难程度和安全可控程度。）
当下，主流的方法站在AGI的第一层：通过Data-DrivenRewardModel+RL提升任务性能，接下来我们从这一层开始聊起。
从RL的基础谈起——从统计的角度，RL研究的是如何在动态变化的数据分布中主动学习并建模（包括策略建模和环境建模，有前者可以Black-boxpolicyinference，有后者可以做planning）；用更RL一点的语言描述，就是如何在和环境的交互中找到长期回报最高的策略。
解决思路上来说，不同的方法都在尝试于探索和利用之间找到平衡（无论是对环境/Dynamics的探索还是对策略的探索）。从这个角度出发，也可以理解为什么没有某种探索策略或者学习方法总是好的——对于任何的探索策略，总能针对它设计counterexample，使得这种探索方法不是最优。而随机性是应对counterexample设计的强有力工具。这也是为什么MaxEntropy类方法总是拿一个randompolicy的KL保持探索，且这一类方法总是在各种环境中都不太差的原因。
RL优化“长期回报”，这意味着首先要定义什么是回报(Reward)，在大多数任务中，没有这样的Reward。所以我们无法做到从“和环境交互中优化策略”，而只能让LLM从人类的语言数据中学习，也就是从行为中学习。方法上分为两大类：
•(1)模仿学习(ImitationLearning)——比如BehaviorClone，就是直接对着行为做监督学习，来生成与行为数据相同的行为模式；
•(2)逆强化学习(InverseReinforcementLearning)——先通过行为数据找到这些行为在尝试优化的奖励函数，然后用这个奖励函数做RL来生成与行为数据相同的行为模式。
(1).[BehaviorClone]先从Pre-train说起，Pre-trainmodel的任务是预测下一个token，也就是非常经典的BehaviorClone，模仿人类的语料库。随着训练规模的扩大，模型各方面的能力不断提升，开始有能力理解比字面意更深层的语义，学会更能泛化更加有效的embedding模式，并且在新的任务上有了few-shot甚至zero-shot的能力。

(3).[SupervisedFine-Tuning]接下来，如果我们有一些高质量的垂类数据或专家数据，在这个小规模数据集上进行监督微调SupervisedFineTuning效果也可能会不错，且这个过程简单稳定，非常适合资源有限，数据质量高，任务对LLM基模来说相对简单，并不追求极致的性能改进的场景。
总结来看，Post-train的总体目标是通过少量的高质量样本，来调整基座模型生成回答的数据分布，使之适应新的任务或特定的某类由样本特性所定义的任务。BC和SFT是直接的模仿学习手段，而Prompt-Engineering很有一种Prior-hacking的味道，我们姑且把它也归为一种对”成功priorhacking经验的模仿”。最近一年里有很多工作讲了SFT和RL(HF)分别在做什么，有很多种含义相近的描述，比如SFT负责记忆，RL负责泛化，SFT做mass-covering，RL做Mode-Seeking。
接下来，我们通过三个例子来看为什么有了SFT/Prompt-Engineering这些简单有效的方法，还需要RL，或者说需要RewardModel。
Inverse-RL中的重要一步是通过数据建模RewardModel，从而使不完整的MDP\R问题转化为完整的MDP，进而能够调用RL工具去解决。我们把这里从人类行为数据出发，建模奖励函数的过程称为(Neural)RewardModeling，这是现阶段的主流做法，也是Silver和Sutton在文章中提到的Human-CenteredAI。我们通过以下三个例子来理解RewardModel的作用与优势
这里举ChatGPT的例子——当我们使用GPT的时候，会遇到让我们提供preference，帮助OpenAI提供未来模型的选项，这件事能大规模应用的主要原因是Preference这个判别任务远比demonstration的生成任务更加容易和可拓展。我们能欣赏顶级网球选手打球，看谷爱凌苏翊鸣飞台子看FWT，不需要我们自身有很高的运动水平
在DeepSeekR1的数学任务中，Rule-based(Data-Driven)rewardmodel给了LLM最大限度的自由度去探索有可能能够成功的回答问题模式，这种自由度允许模型自己去发现“longchain-of-thought”这种行为可以有效提升回答正确的可能，进而把最能够泛化的做题能力保持住。这里(Outcome)RM是因，找到可泛化的pattern是果，具体如何更高效率地exploration，或者学这些发现的pattern，是因果之间的媒介——它会影响学习效率，但不会影响“能不能学”。

同理，RewardModel在困难的LLM任务中也可以扮演Inference-time过滤器的角色，它总能和已有的post-train方法相结合，进一步提升LLM生成的质量。
首先，准确的evaluation是一切算法改进的根基。OnlineRL的工具库里有很多工具，但这些工具能用的前提是有一个靠谱的RewardModel。找到问题出在哪是研究的第一步，如果RewardModel没有研究清楚，在第二阶段各种RL算法如此难收敛，超参如此之多又如此敏感，LLM的训练又如此之慢的前提下，对着不靠谱的RewardModel做优化，得到的实验观察很难总结出可信的结论（更别提有人不到10个数据点取完log都fit不好也起名叫scalinglaw了）。
此外，RL领域无数任务中的经验告诉我们，RL里没有SilverBullet，最重要的是理解任务的特点，并根据任务（数据，奖励性质，系统性质，算力约束）去优化相应的算法。DPO和GRPO的成功不是因为它们是LLM时代的策略优化万金油，而是因为它们找到了先前系统中存在的问题（冗余），根据任务的需求和硬件进行了优化。
首先是观察：Reasoningtask确实可以提升模型”聪明”的程度，跟随用户指令，完成任务和解决问题的能力，在数学上训出来的模型，整体能力都提升了。
其次是动机：如果能够真的让LLMreasoning起来，行为上具有想的越久，正确率越高的能力，那么这个系统兴许真的可以自举起来。数学家不断推理就有可能发现新的定理，提出新的问题，或是在解决问题的方向上取得进展。不过话说回来，用没有这种能力的模型尝试达到“左脚踩右脚原地起飞”的效果，并且用“左脚踩右脚原地起飞”宣传工作，或许有点不太合适。。
在第一层，我们知道通过人类的经验，反馈，或是人工生成的题库来建立奖励模型，可以把LLMPost-Train这个缺失了RewardFunction的MDP\R问题转化成完整的MDP问题。这种数据驱动的方式廉价，可规模化，在数学任务上优化过后取得了非常好的优化泛化性，显著提升了模型的通用能力。但是但凡是有限样本拟合的奖励函数，都会有过拟合的风险，只是不同的模型，不同规模的数据，不同的任务，这种过拟合的风险不同罢了。RewardModel的过拟合带来的后果是RewardHacking，也就是朝着背离Reward设计初衷的方向狂奔，比如helpful这个任务里一个经典的rewardhacking是”lengthbias”——模型不管说的话有没有用，发现说的越多分数越高，就可劲输出废话。
短期来看，我们可以想办法在有限的范围内缓解Rewardhacking，就像这一路data-driven的科研模式中大家通过各种方式减少overfit，提升模型的泛化性一样。但是长期来看，这种发展不符合数据x算力这种更加可预测的扩张模式——在所有有可能的改进中，算法的改进可能是最难预测的（天不生Sutton，RL如长夜）
那么，除了数学，还有什么任务是或许可以突破数据瓶颈，增强模型能力的呢？回想人类幼崽的学习过程，从小时候学会了语言之后，首先接触的是游戏！技术上来讲，游戏往往是定义良好的完整MDP，十几年前我们用游戏训练了DeepRL算法，那如果DeepRL算法运行在LLM上呢？
我们的终极目标是通过在环境中进行无穷多次的尝试探索，让LLM不断提升自己的理解/推理/规划/指令跟随能力。游戏恰好提供了这样的（廉价模拟）环境——想要在游戏中取胜，需要首先理解其规则，进而在规则限定的范围内对策略进行优化。这里的游戏包括文字为基础的辩论/讨论类型的游戏，规则更为明确的棋牌类游戏，以及其他更一般的3D类型游戏。其中文字/辩论类游戏的胜负判断相对困难，但输入输出空间最适用于语言模型。棋牌类游戏虽然可行，但输入输出空间的表征适配或许是一个较大的挑战。更复杂一些的游戏虽然可行，但现在LLM包括VLM的能力可能距离玩好这些游戏太远了，找到合适的curriculum和任务是重要的问题。从去年下半年开始，我们陆续看到了这个方向的尝试，包括简单的Atari，贪吃蛇类型游戏，3D，Text-basedgame，未来可期，但也有诸多亟待解决的问题：
•什么样的任务最适合评估LLM的能力？如何避免text-basedgame中的cheating？
•怎样找到LLM处理输入输出，理解游戏的最佳表示？
•什么样的游戏可以最全面地发展LLM个方面的能力（而不至于让LLM“玩物丧志”overfit到游戏）
•游戏中取得的进展是否可以像数学一样带来全面的能力提升？
•如果允许调用Tool（比如AlphaGo的valuefunction或者GTO软件），LLM还能（需要）在这个过程中学会推理吗，学会造轮子更重要还是使用轮子更重要
•这里是否会有一个对应的gamesupremacyscalinglaw之类的东西存在？游戏提升LLM推理能力的上限在哪里
解决了这些问题之后，大规模上Self-Play，突破目前的数据局限，提升LLM的推理能力就只剩下算力问题。
在过去两年做Alignment研究的过程中，一直很想做但又没有合适机会的方向是Agent——Agent是一个非常面向产品/用户/落地的课题，工程上的优化，用户的反馈，活跃开发社群的建设和维护都十分重要。除此之外，即使可以在研究中尽可能地将基座模型的能力和框架以及学习范式二者分离，基座模型的能力提升往往可以直接带来质变。
至于非技术上的问题，例如早期大家担心的适配与权限问题，目前看来在MCP到来以后都不再是重点。除非数据的拥有者能做到垄断，不然市场的反向选择一定会让数据的拥有者对Agent更加开放。当然，一切的前提都是Agent背后有足量用户的支持，Agent足够强大和有用。从这个角度看，Agent时代做内容和社交，或许能带来洗牌的机会。Agent时代很或许会有新的微信。
从RL的角度，Agent时代也有更多的机遇和挑战：
首先，Agent与虚拟世界（互联网中的内容）进行交互，完成“任务”。所以其实Agent相比LLM的变化，重点不在于加了几个prompt，引入了工作流，而是增加了很多它们和非语言系统交互的可能性。有交互就会有反馈，这些反馈信息是一手的，真实的，on-policy的，用Silver和Sutton的话说就是它们自己的Experience。
在这个交互过程中，用户可以定义无穷多的任务，并且提供任务是否成功的反馈。相比在游戏中进行self-play，直接和用户打交道的Agent所参与的场景和用户的日常需求高度对齐，不太需要担心能力提升的泛化问题。通过用户众包形式的反馈，提升Agent的能力就像是在培养具有专业技能的劳动者。
更重要的是，Agent达成目标这个任务属于RL中的Multi-Goal问题，Multi-Goal最大的特点就是很方便从失败的经验中学习(HindsightMethods)。举个例子，LLM做数学题的时候，一道题做错了，生成的错误答案只能通过“反思，纠错”，来帮助LLM以后在类似的题上不犯同样的错误——但是它很有可能会犯别的错误。这里失败的经验只能被拿来做排除法，从失败中学习难就难在失败的可能千千万，成功的路径相比之下要稀缺很多。所以数学就不是一个很好的“multi-goal”的例子——没有人会把“做错这道题”当成一个有效的目标。
再来看Agent达成目标这个任务，如果我让Agent帮我【订一张从北京到上海的火车票】，结果Agent一通操作，帮我买了一张从北京到深圳的机票，我们会认为这个任务失败了，但是这个失败的经验只是对于原始的目标失败了，如果有一天我想从北京去深圳，这次Agent的失败经验是很有用的，只需要更改这次失败经验的目标，就可以让Agent的Experience中有【订一张从北京到深圳的机票】这个目标应该如何达成这一条，对着成功的案例学习，效率自然会比用排除法高很多。
在这些机遇背后，很多技术问题的答案也让人充满好奇——
•可以规模化的持续学习的能力如何注入，范式是什么
•RL会有plasticityvanishment的问题，GPT系列模型做SupervisedLearning的scalinglaw到了RL还是否存在？
•大规模的AgentLearning是工程和算力的双重挑战。人类社会是多元的，Agent更像是人类社会中承担不同工作的员工们，人类的多元化和不同的天赋让分工更加明确，并且持续积累经验，不断提升专业化的程度和业务能力。用Prompt给Agent注入的Diversity或许帮助有限，用Fine-tuning甚至不同的pretrainmodel又难以支撑。
•AgenticPersonalization是必然的趋势，但端侧友好的轻量化实现目前并没有好的方案。对齐和监管要求这个过程必然是中心化进行的，如果要用目前的技术手段做到这个规模的中心化，英伟达的卡是不是需要普及到人手一块。
最近两年机器人和具身智能再度火热，早期做RL方向的同学可能大多都对这个方向有着比较深的感情，robotcontrol、mujoco应该是当年开始RL的时候大家最先接触的任务。能够和物理世界做真实交互的机器人一定是未来，但是硬件和伦理是两大绕不开的挑战。硬件的成本会随着技术的进步不断降低，但风险和伦理问题一眼还需要更多思考。
硬件方面，2020年和朋友一起琢磨过面向发烧友的手工出海，做过一条非常简易的“四足机器(狗?)”。元件就是几个电机，树莓派，四条腿是一次性筷子做的，拍脑袋写了个声控往前爬往后爬的运动模式。然而出师未捷，内忧外患一起出现——贸易战升级，小米也出了一款价格四位数的消费级器狗。对比过后发现硬件这个东西不比服务或者互联网，一分价格一分货，且重资产轻技术，十几二十块的电机就是做不到精准有力的操控，力度不够就是没办法后空翻，这个产品或许只能卖给发烧友搞着玩，价格也不便宜，后来就不了了之了。
更现实一些，距离我们生活最近的场景是智能(辅助)驾驶，在这个场景里，车是市场上存在的刚醒需求，客户不会因为智能的“具身”支付太多额外的硬件成本。车作为智能的载体，能执行的动作也比较有限，更加可控。即使在这样的EmbodiedAI系统里——我们多大程度上可以接受自己的车一边开一边学，增强推理和理解场景的能力？多大程度上可以接受它犯错？谁来承担系统的错误。
人的分工和相互信任建立在长时间的社会稳定和协作共赢之上，但人和机器如何做到互信，要花多久？当智能能够通过具身或者物理世界的载体和人交互，就不可避免会带来伦理问题，包括我在内的大多数的技术/科研工作者对此可能都一无所知，这里也就不多做讨论。可以确定的是，AGI时代会有更多的挑战，关于AISafety的探讨也会更加迫切，当Agent有有了无限探索的能力和物理世界做交互的时候，碳基文明的存亡也有了实实在在的威胁。
在AGI的前夜，人类更加需要伟大哲学家的指引
往期推荐
RL祖师爷：欢迎来到智能新时代、RLHF将被扫进垃圾堆
Agentic是个谎言，本质还是经典RL
OpenAI姚顺雨：欢迎来到AI下半场！
垂直大模型和workflow是伪命题、是在逆AGI大势开倒车
都看到这了，点个关注再走吧🧐～