OpenAI大佬：AI上半场忙着开发新训练方法和模型GPT-4/o1/o3，下半场呢？

发布日期: 2025-04-20

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

OpenAI大佬姚顺雨发表一篇名为“TheSecondHalf”博客，核心观点是人工智能（AI）的发展已经进入了一个新的阶段，即“下半场”：
从现在开始，将把重点从解决问题转移到定义问题上；
评估将比训练更为重要，不再只是问：“我们能否训练一个模型来解决X问题？”而是要问：“我们应该训练人工智能去做什么，以及我们如何衡量真正的进步？”；
为了在AI的下半场取得成功，需要及时转变思维方式和技能组合，这些思维方式和技能组合或许更接近产品经理的思维和技能。
重点：在过去的几十年中，AI的研究主要集中在开发新的训练方法和模型，如深度学习、强化学习（RL）等。这些方法取得了显著的成果，例如DeepBlue、AlphaGo、GPT-4等。
成果：这些模型在各种任务上表现出色，包括棋类游戏、语言模型、数学竞赛等，推动了AI的快速发展。
评价方式：AI的评价主要依赖于基准测试（benchmarks），例如ImageNet、WMT’14等。这些基准测试为模型的性能提供了量化指标，但往往被视为次要角色。
关键转折点：强化学习（RL）在过去一直未能很好地泛化，但最近取得了重大突破。通过语言和推理，RL现在可以解决一系列广泛的任务，如软件工程、创意写作、数学竞赛等。
在强化学习（RL）中，有三个关键组成部分：算法、环境和先验知识
事实证明，强化学习中最重要的部分可能根本不是强化学习算法或环境，而是先验知识，而这些先验知识可以通过与强化学习完全无关的方式获得。
核心要素：这种突破的实现依赖于三个关键要素：
大规模语言预训练：通过预训练模型（如GPT-3）获取通用的常识和语言知识。
规模（数据和计算）：大规模的数据和计算能力是实现这种泛化能力的基础。
推理和行动：将推理作为RL环境中的行动，利用语言预训练的先验知识来实现泛化。
新的焦点：AI的下半场将从“解决问题”转向“定义问题”。这意味着评价将比训练更重要，研究者需要思考“我们应该训练AI做什么，以及如何衡量真正的进步”。
评价的重要性：过去，AI的研究侧重于开发新的模型和方法，以在基准测试中取得更好的成绩。但在下半场，研究者需要重新思考评价机制，创造新的任务和评价标准，以推动AI在现实世界中的应用。
现实世界的应用：尽管AI在各种基准测试中取得了巨大成功，但这些成功尚未对经济和GDP产生显著影响。这是因为现有的评价机制与现实世界的实际应用存在差异。例如，现实中的任务往往需要与人类互动，而不是完全自动化的。
互动性：现实世界中的任务往往需要与人类互动，而不是完全自动化的。新的评价机制需要考虑这种互动性，例如通过引入真实的人类用户（如ChatbotArena）或用户模拟（如tau-bench）。
非独立同分布（non-i.i.d.）：现实世界中的任务往往是顺序解决的，而不是独立同分布的。新的评价机制需要考虑这种顺序性，例如通过引入长期记忆方法。

https ://ysymyth.github.io/The-Second-Half/
推荐阅读
•动手设计AIAgents：Coze版（编排、记忆、插件、workflow、协作）
•DeepSeekR1+Agent的下半场
•RAG全景图：从RAG启蒙到高级RAG之36技，再到终章AgenticRAG！
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解（1.2万字，20+文献，27张图）
欢迎关注我的公众号“PaperAgent”，每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。

ZejunCao

https://zejuncao.github.io/2025/04/20/1000000507-2247494191-2/