阿里+清华发现80/20法则:LLM只靠20%的token就能学会Reasoning


阿里+清华发现80/20法则:LLM只靠20%的token就能学会Reasoning

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

传统80/20法则认为,80%的结果由20%的关键因素决定。但本文发现:在训练大语言模型(LLM)推理时,真正关键的只有20%的高熵token,而剩下80%的低熵token几乎无用!
实验证明:仅用20%高熵token做强化学习,效果甚至超过全量训练。在320亿参数模型上,数学推理准确率提升超11分!

低熵token:生成概率集中(确定性高),多为固定表达(如代码片段、数字)。
怎么想一个恰当比喻呢:
比如论文呢中的这个图:
高熵token=岔路口选择(向左?向右?)
低熵token=直行路段(无需决策)决定最终路径的是岔路口,而非直行!
强化学习验证奖励(RLVR)常用优化模型推理,但传统方法对所有token一视同仁。本文发现:
基座模型的熵模式会被保留:RLVR训练后,90%的高/低熵token位置不变。
仅调整高熵token的熵值:通过限制策略梯度更新,只优化前20%高熵token:
仅计算高熵的梯度
结果:避免低熵token干扰,提升训练效率。
20%>100%:在Qwen3-32B模型上,仅优化20%高熵token:
AIME数学竞赛分数提升+11. 04分
响应长度增加(探索更充分)
模型越大,收益越高:提升幅度:32B>14B>8B说明:大模型更能利用高熵token的探索能力
反向实验:若只优化80%低熵token,性能暴跌。
高效训练比较:计算资源聚焦20%关键token,降低成本。
泛化能力:高熵token驱动跨领域泛化(如数学→编程)。
理论方面:
传统RL:鼓励所有token增加熵(探索)
本文策略:保护低熵token稳定性,专注高熵探索
备注:昵称-学校/公司-方向/会议(eg. ACL),进入技术/投稿群
id:DLNLPer,记得备注呦


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录