Reasoning模型在RL下的探索欲望急速下降问题:探索熵机制
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
熵崩溃现象!当大模型通过强化学习训练解题时,会出现一个诡异现象:模型探索欲望急速下降。就像学生刷题时只背标准答案,不再尝试新解法:
训练初期策略熵(可理解为\“选择多样性\“)断崖式下跌至接近0
伴随而来的是性能增长停滞,下图清晰展示了这种双重困局
关键数据:93%的性能提升发生在前1/3训练步数,后期投入收益极低
论文通过11种模型、8大数学/编程基准测试,揭露了规律:
R:模型性能得分|H:策略熵值
a,b:由模型和数据决定的常数
物理意义:模型用探索能力(熵)兑换性能增益
定律推论当熵耗尽(H=0)时,性能天花板为通过小模型实验即可预测大模型的最终性能(误差<2%)
规模拓展规律
为什么熵会持续下降?论文给出数学解释:
A(a):动作优势值(代表决策质量)
发现:高概率+高优势的动作→熵下降低概率+高优势的动作→熵上升
实际训练中协方差项持续为正→熵必然衰减
实验验证
传统熵正则化方法对大模型失效!团队创新提出:
Clip-Cov(协方差裁剪)
操作:随机屏蔽0. 02%超高协方差token的梯度
效果:阻止模型过度\“自信\“
KL-Cov(协方差惩罚)
操作:对top0. 2%高协方差token添加KL散度惩罚
效果:抑制确定性输出倾向
实验结果
这项研究直指AI训练范式变革的核心:
预训练→RL微调已成趋势
熵控,突破现有性能天花板的关键钥匙
作者展望\“当算力投入转向强化学习,保持探索能力将成为解锁AGI的核心能力\“
备注:昵称-学校/公司-方向/会议(eg. ACL),进入技术/投稿群
id:DLNLPer,记得备注呦