强化学习之于 AI Agent，是灵魂、还是包袱？

发布日期: 2025-04-22

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

从Workflow到通用智能，还差着代际距离。
来源：AI科技评论
作者：郑佳美
编辑：马晓宁
自主决策能力是Agent受到重视，并被称为AI时代“新基建”原因。从这个角度看，Workflow似乎做不出真正的通用Agent。
而要谈真正具备决策能力和自我意识的Agent，其实要从AlphaGo的问世说起。这是AI首次展示出非模板化、非规则驱动的智能行为。而AlphaGo也靠着深度神经网络与RL，进行自我对弈与自我优化，最终击败人类顶级棋手，敲响了Agent时代的第一声锣。
从某种程度上说，Devin可以算是通用Agent的滥觞。它首次把AI的编码能力、任务执行与反馈机制整合成一个完整的闭环，为后续产品提供了清晰的范例。
后来，Manus延续了Devin的工作流思路，并提出“MoreIntelligence”的理念，不再满足于简单地串联工具，而是试图通过任务拆解、自我反思、模型调度等方式，让Agent具备更强的理解力和适应能力。而Genspark则走了一条更加模块化的路线，把每个任务步骤都变成一个可组合的部分，让开发者可以像拼乐高一样，快速搭建出属于自己的Agent系统。
但在当前主流关于“如何构建Agent”的技术路径中，有两个被广泛认可的共识：一是拥有基础模型是构建Agent的起点，二是RL是赋予Agent连贯行为和目标感的“灵魂”。它决定了Agent如何理解环境反馈、进行长期规划，并作为连接Perception与行动Action的关键桥梁。
反观Manus，由于缺乏底层模型能力和算法能力的支撑，它的系统结构相对开放，十分容易被模仿，甚至有团队在三天内就实现了复制，也因此被一些批评者视为“套壳”。不过从AI科技评论的角度看，这种批评也有失公允，毕竟Manus在产品设计和任务编排上依然有不少可圈可点的创新。
但“Agent不能仅靠Workflow搭建”的看法，已经逐渐成为业内的共识。正是在这样的主流认知下，那些始终坚持深耕强化学习的团队，反而在新一轮技术演进中走到了更前沿的位置。
1
没有RL的Agent，只是在演戏
PokeeAI创始人、前MetaAI应用强化学习团队负责人朱哲清，就是一位对RL始终坚定信仰的“长期主义者”。
朱哲清曾向AI科技评论表示，RL的核心优势在于目标驱动，它不是简单地响应输入，而是围绕一个清晰目标，进行策略规划和任务执行。而一旦缺少了RL的参与，Agent就容易陷入“走一步看一步”的模式，缺乏内在驱动力，最终难以真正胜任复杂任务的完成。
他认为真正的Agent的核心在于其执行能力与影响力。如果一个系统只是单纯地生成内容或文件，那它更像是一个普通的工具，而非真正的Agent。而当它能够对环境产生不可逆的影响时，它才具备了真正的执行性。总的来说，只有与环境发生深度交互，且产生的影响不可逆，才能称之为真正的Agent。
他表示带有Workflow的产品，实际上是Agent发展的初期形态。虽然它有明确的目标和流程，但仍需要人为干预，这样的系统仍处于早期阶段。真正的Agent不仅仅是按照预设的工具来操作，而是能够根据给定目标，自主选择和使用工具完成任务。
在他的认知中，Agent的发展可以分为多个阶段。早期的例子，比如Zapier的工作流系统，更多是模拟人的决策行为，但并非真正智能的AIAgent。之后又有了像LangChain这种类拖拽流的可组合型的任务执行模式，逐步向系统化过渡。到了现在，用Claude去做MCP的时候虽然工具的调用和规划能力都比较有限，但已经开始向更高水平的Agent演进。
而下一阶段的Agent，将不再需要用户或开发者了解具体的工具或技术细节。用户只需简单提出任务要求，Agent就能够根据目标自动选择工具，并规划解决路径。此时，整个过程的自主性与智能性将达到前所未有的水平，Agent也将真正实现从工具到智能体的转变。
他坦言，RL算法确实存在诸多挑战。比如线下训练时，使用的数据集与真实世界往往存在巨大差异，导致模型一旦从线下迁移到线上，就可能“水土不服”，再比如操作动作空间过大时，RL系统很难稳定泛化，效率与稳定性之间的平衡始终是个难题。
但即便如此，朱哲清仍然坚持自己的判断：无论是o1还是Rule-basedrewardmodel等模型范式的出现，RL始终是站在技术舞台上的“隐形主角”。虽然它未必是AGI的唯一通路，但在迈向真正“SuperhumanIntelligence”的过程中，RL是一个无法绕开的技术节点。
在他看来，相比那些过于模糊、甚至略显理想化的AGI概念，能够超越人类在某些任务上的智能体，才是一个更实际、可度量的目标。RL，就是驱动这一目标落地的关键引擎。
2
有RL的Agent，也能往前走
然而，凡事都有两面。有人坚信RL是Agent的核心驱动力，也有人对这个观点提出质疑。
香港科技大学（广州）博士生，DeepWisdom研究员张佳钇就属于对RL持保留态度的那一派。他追求跨环境的智能体，在与AI科技评论对话时表示：现有RL技术虽能在特定环境中提升Agent能力，但这本质上是“任务特化”而非真正的智能泛化。在实现跨环境数据的有效统一表征之前，RL面临的跨环境学习困境难以突破。
他认为利用RL对语言模型进行环境内优化本身没有问题，但问题在于，目前很多研究使用的仍是能力较弱的基础模型（basemodel），即便训练到“最优”，也只是对单一环境的适配，缺乏跨环境的泛化能力。在他看来，“使用RL训出一个适应某个环境的Agent已经很近，但距离训出通用跨环境的Agent还有很长的一段路要走。”
同时他也并不完全认同“没有RL就没有Agent”这一观点。他表示业界对RL的“过度崇拜”掩盖了一个关键事实：OpenAIDeepResearch的成功更多依赖于其强大的基础模型o3早期版本提供的先验知识，而非只有RL本身。
虽然近期的学术研究表明RL确实能提升较弱基础模型的能力，但提升幅度有限，这也正是学术界和初创公司面临的核心挑战——如何在缺乏顶级基础模型的情况下，通过建立持续有效的RL数据收集流程来缩小与巨头的差距。
不过，张佳钇也并不全盘否定RL。他表示RL的局限性更多是技术阶段的产物，且目前尚未出现一个能够有效解决泛化问题的算法。因此，RL的问题不完全是方法论本身，而是当前技术仍处于早期阶段。
除此之外，他还向AI科技评论表示，更期待能够看到一个跨环境泛化的模型（比如UI-TARS-1.5）——在任何环境下都能执行不同任务，而不是针对某个环境进行“定制化适配”。在他看来，这样的模型可能在未来出现。一旦实现，“Agent就只需要在模型上做个简单系统就可以了。”
在整体架构上，他也给出了他对Agent演化路径的划分——他将Agent的发展过程分为六个阶段：
第一阶段：构成Agent系统的最底层节点，语言模型被调用来执行基本任务；
第二阶段：在底层调用节点基础上，构建出固定的agenticworkflow，每个节点的角色与职责预设明确；
第三阶段：底层组件演化为具有自身逻辑和动作空间的autonomousagent；
第四阶段：多个autonomousagents通过主动交流机制构建系统，形成MultiAutonomousAgentSystems（MAS）；
第五阶段：底层组件拥有与人类一致的环境空间，成为FoundationAgent，开始协助人类跨环境完成任务；
第六阶段：FoundationAgent基于人类目标与其他Agent产生联系，演化出具备自主协作能力的FoundationAgents网络。真正实现以人类目标为核心的多智能体社会，达到Agent与人类共生的范式。
而目前大多数Agent产品公司仍停留在第二到第三阶段之间，尚未迈过第四阶段的门槛，而“最大的瓶颈在于当前Agent仍严重依赖人类预设的workflow节点，缺乏真正的自主性。”
在张佳钇看来，当前大多数Agent产品仍停留在第二到第三阶段之间，尚未迈过第四阶段的门槛。突破当前瓶颈的关键在于使Agent摆脱人类预设经验的束缚，通过自主探索获取跨环境经验并学会与各类专业Agent协作。
但在Follou创始人谢扬来看，这个问题又有所不同。
他认为Agent和工作流自动化是可以组合起来的。在他眼中，Agent应该是一些可以协助人类提升生产力的工具，而并非一个独立的个体。它的价值不在于模拟人类，而在于高效协助人类，把复杂的任务拆解、执行，并最终完成目标。
在谢扬看来，很多人过于执着于“Agent是否像人”这个问题，而忽略了它真正的应用意义。他更关心的是，Agent是否真的能在现实中帮人把一件事做完，无论是搜索信息、分析数据，还是调度工具，Agent也不应该成为一个新的“入口”或者“平台”，而应该成为一种嵌入式能力，真正融入人类的工作流程之中，成为“能执行的思考”和“能学习的工具”。
在这个过程中，他并不否认“自主性”的重要性，尤其是在环境感知和情境理解上的价值。但在他看来，衡量一个Agent是否真正有生命力，更关键的标准在于它是否“可组合”“可调度”。只有当Agent能够被灵活地组织在不同的垂直任务中，支持模块化的能力组合，并与人类实现高效协同，它才真正具备长期应用的可能性。
基于这样的理念，Follou也构建了一整套融合Agent与工作流的架构体系，他们将浏览器（Browser）、智能体（Agent）和工作流自动化（WorkflowAutomation）等核心组件融合在一起，浏览器负责访问和渲染Web内容，智能体负责基于LLM理解上下文和做出决策，而工作流自动化则执行具体任务，调用API、插件或脚本。
在谢扬看来，这种结构并不是技术炫技，而是一种“实用主义”的选择。他更关心的是，Agent是否真正能在现实中把一件事做完，而不是停留在看起来很聪明的幻觉里。
在RL信徒与质疑者的观点交锋中，我们能看到一个逐渐清晰的趋势：Agent的演化已不再是单一范式的胜利，而是多种技术路线的协同博弈。归根到底，构建Agent从来不是拼哪一种技术最炫，而是拼能不能把每一块基础能力连接成一个真正可运行的系统。
从理解指令，到规划路径、感知反馈，再到调用外部工具完成任务，每一环都需要精密协作、形成稳定闭环。模型能力再强，如果没有目标规划和执行机制，也只能停留在“懂你在说什么，但却做不了任何事”的阶段，而即便策略再优秀，如果基础模型跟不上、感知不准确，也会陷入“会动但不聪明”的窘境。
所以，构建Agent不是“拼模型”或“赌范式”的零和游戏，而是一次工程能力、系统设计和认知理解力的多维较量。
RL可以塑造目标感，模型提供理解力，外部接口延展执行力，三者缺一不可。而如何把这些能力组合在一起，真正打造成一个可泛化、可迁移甚至是可迭代的系统，才是Agent走向通用市场的重要一步。
3
一个新的未来
而现在每天被人们挂在嘴边的Agent，其实最早在人工智能领域是一个非常宽泛的概念：只要一个系统具备感知和决策能力，它就可以被称为Agent。
但随着Copilot类产品的兴起，Agent的概念又被重新定义：是否需要人介入决策，成为划定Agent边界的关键标准。如果一个系统可以在没有人参与的前提下独立完成决策和执行，那它就属于真正意义上的Agent。
在这个标准下，其实我们今天看到的大部分AI应用都可以被视为某种形式的Agent。比如在编程领域，一个AI模型可以完成代码生成、编译、测试、修改的循环；在游戏中，AI控制的角色可以自主应对环境变化，失败也不会造成真实世界的损失。这些任务虽然复杂，但由于风险较低、反馈明确，所以系统即使出错，问题也不大。
但如果朝着通用Agent的方向发展的话，那么最大的衡量标准，就不再是语言生成的能力或者执行速度，而是任务解决的成功率。从系统架构上来看，着往往取决于两种关键的设计：
如果是串行的Agent架构，即由一个上层Agent发出决策，再调度多个下层Agent执行子任务。如果是在这种模式下，调度层的指挥能力和下层的配合能力就直接决定了任务是否能够高效完成。
而如果是并行的Agent架构的话，则是需要多个智能体在同一时间共同协作完成任务，这就需要系统从头到尾都不能出错，因为就算每个环节的成功率都能够达到七八成，但最后的整体成功率也会指数级下降。
因此，要构建真正强大、可落地的通用Agent，必须确保系统的稳定性、容错机制和跨模块协同能力，否则就难以胜任复杂任务。这便是目前通用Agent面临的主要问题。
而通用Agent一旦能够落地，它将会让大家的边际成本显著下降，同时望成为继PC操作系统和手机系统之后的新一代人机交互入口。这一点类似于当年微软和英特尔组成的“Wintel模式”，即操作系统带来人机交互，芯片提供计算能力，二者结合直接引爆整个生态。同理，今天的苹果也凭借自研的iOS和芯片称霸移动端，而安卓阵营与高通的配合也形成了另一套强大体系。
顺着这个思路去想，在通用Agent的未来中，很可能会诞生类似的生态闭环：AI操作系统+模型原生芯片，进而催生出下一代Wintel模式。到时候，我们或许将看到专为Agent设计的模型级芯片，亦或者是AIPC的兴起，共同见证整个智能交互方式的范式跃迁。
阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”
https ://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx.zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
（加入未来知识库，全部资料免费阅读和下载）
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡：超级智能机构：赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
壳牌：2025能源安全远景报告：能源与人工智能（57页）
盖洛普&牛津幸福研究中心：2025年世界幸福报告（260页）
Schwab：2025未来共生：以集体社会创新破解重大社会挑战研究报告（36页）
IMD：2024年全球数字竞争力排名报告：跨越数字鸿沟人才培养与数字法治是关键（214页）
DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt
联合国人居署：2024全球城市负责任人工智能评估报告：利用AI构建以人为本的智慧城市（86页）
TechUK：2025全球复杂多变背景下的英国科技产业：战略韧性与增长路径研究报告（52页）
NAVEXGlobal：2024年十大风险与合规趋势报告（42页）
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma：2024年全球生物制药行业展望报告：增长驱动力分析（29页）
【AAAI2025教程】基础模型与具身智能体的交汇，350页ppt
Tracxn：2025全球飞行汽车行业市场研究报告（45页）
谷歌：2024人工智能短跑选手（AISprinters）：捕捉新兴市场AI经济机遇报告（39页）
【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心：2025CSET对美国人工智能行动计划的建议（18页）
罗兰贝格：2024人形机器人的崛起：从科幻到现实：如何参与潜在变革研究报告（11页）
兰德公司：2025从研究到现实：NHS的研究和创新是实现十年计划的关键报告（209页）
康桥汇世（CambridgeAssociates）：2025年全球经济展望报告（44页）
国际能源署：2025迈向核能新时代
麦肯锡：人工智能现状，组织如何重塑自身以获取价值
威立（Wiley）：2025全球科研人员人工智能研究报告（38页）
牛津经济研究院：2025TikTok对美国就业的量化影响研究报告：470万岗位（14页）
国际能源署（IEA）：能效2024研究报告（127页）
Workday：2025发挥人类潜能：人工智能（AI）技能革命研究报告（20页）
CertiK：Hack3D：2024年Web3.0安全报告（28页）
世界经济论坛：工业制造中的前沿技术：人工智能代理的崛起》报告
迈向推理时代：大型语言模型的长链推理研究综述
波士顿咨询：2025亚太地区生成式AI的崛起研究报告：从技术追赶者到全球领导者的跨越（15页）
安联（Allianz）：2025新势力崛起：全球芯片战争与半导体产业格局重构研究报告（33页）
IMT：2025具身智能（EmbodiedAI）概念、核心要素及未来进展：趋势与挑战研究报告（25页）
IEEE：2025具身智能（EmbodiedAI）综述：从模拟器到研究任务的调查分析报告（15页）
CCAV：2025当AI接管方向盘：自动驾驶场景下的人机交互认知重构、变革及对策研究报告（124页）
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》
全国机器人标准化技术委员会：人形机器人标准化白皮书（2024版）（96页）
美国国家科学委员会（NSB）：2024年研究与发展-美国趋势及国际比较（51页）
艾昆纬（IQVIA）：2025骨科手术机器人技术的崛起白皮书：创新及未来方向（17页）
NPL&Beauhurst：2025英国量子产业洞察报告：私人和公共投资的作用（25页）
IEAPVPS：2024光伏系统经济与技术关键绩效指标（KPI）使用最佳实践指南（65页）
AGI智能时代：2025让DeepSeek更有趣更有深度的思考研究分析报告（24页）
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告（37页）
华为：2025鸿蒙生态应用开发白皮书（133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟（QuIC）：2024年全球量子技术专利态势分析白皮书（34页）
美国能源部：2021超级高铁技术（Hyperloop）对电网和交通能源的影响研究报告（60页）
罗马大学：2025超级高铁（Hyperloop）：第五种新型交通方式-技术研发进展、优势及局限性研究报告（72页）
兰德公司：2025灾难性网络风险保险研究报告：市场趋势与政策选择（93页）
GTI：2024先进感知技术白皮书（36页）
AAAI：2025人工智能研究的未来报告：17大关键议题（88页）
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信：2025全球洪水风险研究报告：现状、趋势及应对措施（22页）
兰德公司：迈向人工智能治理研究报告：2024EqualAI峰会洞察及建议（19页）
哈佛商业评论：2025人工智能时代下的现代软件开发实践报告（12页）
德安华：全球航空航天、国防及政府服务研究报告：2024年回顾及2025年展望（27页）
奥雅纳：2024塑造超级高铁（Hyperloop）的未来：监管如何推动发展与创新研究报告（28页）
HSOAC：2025美国新兴技术与风险评估报告：太空领域和关键基础设施（24页）
Dealroom：2025欧洲经济与科技创新发展态势、挑战及策略研究报告（76页）
《无人机辅助的天空地一体化网络：学习算法技术综述》
谷歌云（GoogleCloud）：2025年AI商业趋势白皮书（49页）
《新兴技术与风险分析：太空领域与关键基础设施》最新报告
150页！《DeepSeek大模型生态报告》
军事人工智能行业研究报告：技术奇点驱动应用加速智能化重塑现代战争形态-250309（40页）
真格基金：2024美国独角兽观察报告（56页）
璞跃（PlugandPlay）：2025未来商业研究报告：六大趋势分析（67页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界：多模态生成模型的统一综述
中国信息协会低空经济分会：低空经济发展报告（2024-2025）（117页）
浙江大学：2025语言解码双生花：人类经验与AI算法的镜像之旅（42页）
人形机器人行业：由“外”到“内”智能革命-250306（51页）
大成：2025年全球人工智能趋势报告：关键法律问题（28页）
北京大学：2025年DeepSeek原理和落地应用报告（57页）
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校：面向科学发现的多模态基础模型：在化学、材料和生物学中的应用
电子行业：从柔性传感到人形机器人触觉革命-250226（35页）
RT轨道交通：2024年中国城市轨道交通市场数据报告（188页）
FastMoss：2024年度TikTok生态发展白皮书（122页）
CheckPoint：2025年网络安全报告-主要威胁、新兴趋势和CISO建议（57页）
【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt
《21世纪美国的主导地位：核聚变》最新报告
沃尔特基金会（VoltaFoundation）：2024年全球电池行业年度报告（518页）
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
国际科学理事会：2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告（英文版）（118页）
光子盒：2025全球量子计算产业发展展望报告（184页）
奥纬论坛：2025塑造未来的城市研究报告：全球1500个城市的商业吸引力指数排名（124页）
FutureMatters：2024新兴技术与经济韧性：日本未来发展路径前瞻报告（17页）
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性：从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用：近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心：2024美国民众对气候变化及应对政策的态度调研报告：气候政策对美国经济影响的多元观点审视（28页）
空间计算行业深度：发展趋势、关键技术、行业应用及相关公司深度梳理-250224（33页）
Gartner：2025网络安全中的AI：明确战略方向研究报告（16页）
北京大学：2025年DeepSeek系列报告-提示词工程和落地场景（86页）
北京大学：2025年DeepSeek系列报告-DeepSeek与AIGC应用（99页）
CIC工信安全：2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告（42页）
中科闻歌：2025年人工智能技术发展与应用探索报告（61页）
AGI智能时代：2025年Grok-3大模型：技术突破与未来展望报告（28页）
上下滑动查看更多