仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
大家好,今天分享一篇文章
【RL将死,In-ContextRL是未来】原文:https ://zhuanlan.zhihu.com/p/703999207
我不止一次说RL(ReinforcementLearning)将死,上次被打脸了,RLHF
Reward敏感,调评估准则需要重训,模型不能根据评估准则改变即刻调整。
方法太多太Trick,效果全凭运气。当一个领域方法太多而且多不简洁时,差不多死期也就不远。
Exploration过程难建模,到现在RandomExploration还是state-of-the-art.Curiosity这类高阶Exploration没有通用的。
泛化性太差,训练代价太高,完全不适合ScalingUp
不仅RL,Alignment最终应该也通过In-ContextLearning,才是通向AGI的正确路径。