RL将死,In-Context RL是未来


RL将死,In-Context RL是未来

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,今天分享一篇文章
【RL将死,In-ContextRL是未来】原文:https ://zhuanlan.zhihu.com/p/703999207
我不止一次说RL(ReinforcementLearning)将死,上次被打脸了,RLHF

Reward敏感,调评估准则需要重训,模型不能根据评估准则改变即刻调整。
方法太多太Trick,效果全凭运气。当一个领域方法太多而且多不简洁时,差不多死期也就不远。
Exploration过程难建模,到现在RandomExploration还是state-of-the-art.Curiosity这类高阶Exploration没有通用的。
泛化性太差,训练代价太高,完全不适合ScalingUp

不仅RL,Alignment最终应该也通过In-ContextLearning,才是通向AGI的正确路径。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录