RL将死，In-Context RL是未来

发布日期: 2025-04-28

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大家好，今天分享一篇文章
【RL将死，In-ContextRL是未来】原文：https ://zhuanlan.zhihu.com/p/703999207
我不止一次说RL(ReinforcementLearning)将死，上次被打脸了，RLHF

Reward敏感，调评估准则需要重训，模型不能根据评估准则改变即刻调整。
方法太多太Trick，效果全凭运气。当一个领域方法太多而且多不简洁时，差不多死期也就不远。
Exploration过程难建模，到现在RandomExploration还是state-of-the-art.Curiosity这类高阶Exploration没有通用的。
泛化性太差，训练代价太高,完全不适合ScalingUp

不仅RL,Alignment最终应该也通过In-ContextLearning,才是通向AGI的正确路径。

ZejunCao

https://zejuncao.github.io/2025/04/28/1000000181-2247487604-1/