OpenAI大佬:AI上半场忙着开发新训练方法和模型GPT-4/o1/o3,下半场呢?
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
OpenAI大佬姚顺雨发表一篇名为“TheSecondHalf”博客,核心观点是人工智能(AI)的发展已经进入了一个新的阶段,即“下半场”:
从现在开始,将把重点从解决问题转移到定义问题上;
评估将比训练更为重要,不再只是问:“我们能否训练一个模型来解决X问题?”而是要问:“我们应该训练人工智能去做什么,以及我们如何衡量真正的进步?”;
为了在AI的下半场取得成功,需要及时转变思维方式和技能组合,这些思维方式和技能组合或许更接近产品经理的思维和技能。
重点:在过去的几十年中,AI的研究主要集中在开发新的训练方法和模型,如深度学习、强化学习(RL)等。这些方法取得了显著的成果,例如DeepBlue、AlphaGo、GPT-4等。
成果:这些模型在各种任务上表现出色,包括棋类游戏、语言模型、数学竞赛等,推动了AI的快速发展。
评价方式:AI的评价主要依赖于基准测试(benchmarks),例如ImageNet、WMT’14等。这些基准测试为模型的性能提供了量化指标,但往往被视为次要角色。
关键转折点:强化学习(RL)在过去一直未能很好地泛化,但最近取得了重大突破。通过语言和推理,RL现在可以解决一系列广泛的任务,如软件工程、创意写作、数学竞赛等。
在强化学习(RL)中,有三个关键组成部分:算法、环境和先验知识
事实证明,强化学习中最重要的部分可能根本不是强化学习算法或环境,而是先验知识,而这些先验知识可以通过与强化学习完全无关的方式获得。
核心要素:这种突破的实现依赖于三个关键要素:
大规模语言预训练:通过预训练模型(如GPT-3)获取通用的常识和语言知识。
规模(数据和计算):大规模的数据和计算能力是实现这种泛化能力的基础。
推理和行动:将推理作为RL环境中的行动,利用语言预训练的先验知识来实现泛化。
新的焦点:AI的下半场将从“解决问题”转向“定义问题”。这意味着评价将比训练更重要,研究者需要思考“我们应该训练AI做什么,以及如何衡量真正的进步”。
评价的重要性:过去,AI的研究侧重于开发新的模型和方法,以在基准测试中取得更好的成绩。但在下半场,研究者需要重新思考评价机制,创造新的任务和评价标准,以推动AI在现实世界中的应用。
现实世界的应用:尽管AI在各种基准测试中取得了巨大成功,但这些成功尚未对经济和GDP产生显著影响。这是因为现有的评价机制与现实世界的实际应用存在差异。例如,现实中的任务往往需要与人类互动,而不是完全自动化的。
互动性:现实世界中的任务往往需要与人类互动,而不是完全自动化的。新的评价机制需要考虑这种互动性,例如通过引入真实的人类用户(如ChatbotArena)或用户模拟(如tau-bench)。
非独立同分布(non-i.i.d.):现实世界中的任务往往是顺序解决的,而不是独立同分布的。新的评价机制需要考虑这种顺序性,例如通过引入长期记忆方法。
https ://ysymyth.github.io/The-Second-Half/
推荐阅读
•动手设计AIAgents:Coze版(编排、记忆、插件、workflow、协作)
•DeepSeekR1+Agent的下半场
•RAG全景图:从RAG启蒙到高级RAG之36技,再到终章AgenticRAG!
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。