高熵驱动，负向为王：熵感知强化学习如何重塑大模型推理

发布日期: 2025-07-07

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

最近，如果你关注大模型（LLM）领域，你可能会发现一个词的热度正在飙升——Token熵。这并非偶然，近期相继发表的三篇重磅论文，都不约而同地将目光投向了它，深入探讨了Token熵在强化学习（RL）中对大模型推理能力的关键影响。
这几篇论文的研究方向非常有意思：从只用“高熵Token”就能高效提升模型性能，到揭示模型表现与熵之间存在的“宿命般”的数学关系，再到最后发现“负向惩罚”居然比“正向激励”更有效的惊人结论。这些发现，正在悄悄颠覆我们过去对大模型强化学习的一些传统认知。
这篇文章的目的，就是带大家系统地梳理这三篇论文的核心脉络，用通俗易懂的语言，把“Token熵”这个看似玄乎的概念彻底讲明白。我们会一起探索，为什么说它是解开大模型推理能力提升之谜的钥匙。
文章核心结论速览：
高熵Token是关键：在大模型强化学习中，真正驱动推理能力提升的，主要是那约20%的不确定性高的“决策Token”（高熵Token）。而忽略剩下80%的“填充Token”（低熵Token）进行训练，效果反而更好。
性能与熵的权衡：模型推理性能的提升，往往伴随着熵的“燃烧”。性能与熵之间存在一个可预测的反比关系，模型的性能上限受其能维持的熵水平所制约。
负向强化出奇效：传统的正向强化学习（奖励正确的，类似SFT）会快速消耗模型的熵，导致模型“过拟合”而失去探索能力。而负向强化学习（惩罚错误的）则能有效保持输出多样性，在提升准确率（Pass@1）的同时，还能显著提高模型的探索能力（Pass@k）。
话不多说，让我们一起进入大模型推理的“熵”之谜。
文章结构如下：
在深入探讨之前，我们必须先弄明白一个基本概念：**Token熵(TokenEntropy)**。
用大白话讲，Token熵衡量的是模型在生成下一个Token时的“不确定性”或“选择困难程度”。
高熵：模型觉得好几个词都可以，拿不定主意。比如，在“我今天午饭吃…”后面，可以是“面条”、“米饭”、“沙拉”，模型对这些选项的概率预测都比较平均，此时熵值就高。
低熵：模型非常确定下一个词应该是什么。比如，在“一加一等于…”后面，模型会以极高的概率预测“二”，此时熵值就低。
其数学定义如下：
其中，是模型在第步预测的词表（Vocabulary）中所有Token的概率分布。
在强化学习中，熵的概念直接关联到那个经典的探索（Exploration）与利用（Exploitation）的平衡问题。一个熵值过低的模型，就像一个只会走大路的老司机，虽然稳，但永远发现不了风景更好的小路。它会固守已知的、安全的推理路径，从而限制了发现更优解的可能性。因此，如何科学地管理和利用Token熵，成为了提升模型复杂推理能力的关键。
论文链接：High-EntropyToken-DrivenLearningforReasoning
限制梯度更新在高熵token熵，利用20%的高熵token取得更优效果，在80%的低熵token上效果下降
模型表现：

关键结论：
低熵Token大部分是完成既有的语言结构，高熵Token则是在不同推理路径的决策Token
RL未改变Base模型的熵分布，RLVR仅改变高熵token的熵
20%的高熵token能够在探索利用间平衡取得最优效果
Token熵计算方式，第t步token的分布：
Qwen3-8B，AIME24/AIME25数据，Temperature1中10^6个ResponseToken熵分布：
实验结论：
图2(a)少部分token是高熵的，大部分是低熵的，50%的熵低于10-2，20%的高于0. 672
图2(b)中高熵的token是连接词(suppose/assume)，低的是确定性的词语(sin/cos)
高熵token作为分叉的token，导向不同推理的分支
给熵不同的token赋予temperate，测试不同熵token对模型效果的影响：
Temperature越低确定性越高，熵分布越低
高熵token在降低temperature，降低分布熵后，效果下降更明显
实验设置：
算法：DAPO
模型：Qwen3-14BBase
方式：统计不同训练阶段的Top20%熵token与Base模型分布的重合比例
实验结果：
1360step后仍然保留86. 67%的高重叠率，RLVR后大部分保留了Base模型的熵分布
实验设置：
算法：DAPO
模型：Qwen3-14BBase
方式：统计Base模型熵分布的不同分位点token在RLVR后的改变比例
实验结果：
高熵tokenRLVR后改变更大，低熵token基本保持不变
具体方案：仅利用高熵Token的策略梯度训练，挑选一个MicroBatch内的Top熵token进行训练
实验设置：
算法：DAPO
核心参数：Top20%熵token参与梯度计算
实验结果：
表2和图6表明忽视80%的低熵token对模型表现无负面影响，还有提升。表面RLVR中的模型能力提升由高熵token带来，低熵token无效果甚至有损模型表现
图7表明模型表现与高熵token比例强相关，14B/32B模型中，降低高熵token比例模型表现略微下降，使用全部token则大幅下降
图7(a)表明低熵token训练带来了重大的下降，低熵token对增强模型推理能力贡献甚微
高熵token能够增强模型高效探索的能力，约20%的高熵token能够在探索和利用取得平衡，反而如果新增更多的token可能会探索有害，特别是在收敛之前的阶段
图8表明高熵token训练对更大模型更有帮助
实验分析：
高熵Token训练具有泛化性，在Math数据集上训练，结论在Livecodebench测试具有相同的结论
高熵Token训练能够解锁更强的推理能力。在32BSOTA模型上扩展输出长度至29K，模型能力进一步提高
高熵Token训练在非Qwen模型同样适用，在1W条数据冷启动后的Llama模型上结论同样适用。
RL提高高熵token的熵，保留了推理的多条路径
SFT拟合数据，降低了高熵token的熵，减少了推理路径的可能性
Base模型中在预训练的先验知识下，COT中包含了多数的低熵Token和少数的高熵Token，这是因为LLM中大规模先验知识对语言流畅性的要求
论文链接：TheEntropyMechanismofReinforcementLearningforReasoningLanguageModels
如果说第一篇论文告诉我们“要关注什么”，那么这篇论文则深入探讨了“为什么”，并揭示了模型性能与熵之间一个近乎“宿命”的数学关系。
关键结论：
在没有entropyloss与KLloss的情况下，模型表现与Entropy的关系可预测，公式如图所示
模型表现上界也受熵影响，RL训练需要打破熵的瓶颈

限制高协方差的token进行梯度更新，有助于提高熵上界。提出两种方式限制高协方差token进行梯度更新：
Clip-Cov：选择一部分高协方差token，移除梯度
KL-Cov：针对高协方差token进行KL惩罚
关键结论：
模型下游任务表现可根据熵进行预测
关键系数a，b反应了策略与数据的内部特征
模型上界-a+b成为扩展RL提高模型推理能力的阻碍
实验设置：
模型：Qwen2. 5/Mistral/LLaMA/DeepSeekBase模型
数据：MATH500/AIME2024/AMC/OlypiadBench/OMNI-MATH/Eurus-2-RL-Code/KodCode
算法：GRPO/REINFORCE++/PRIME
图2说明93%的模型能力提升同步消耗了93%的熵，即熵在初期快速下降，同时该阶段模型能力提高
图3与图4展示出不同任务与不同模型的拟合曲线，可以通过位于训练初期的高熵点预测低熵的模型表现，如图5所示：
a，b参数与RL算法无关，如图6所示，不同算法的曲线相同
a代表模型转换熵到模型表现的效率，-a+b代表模型的能力上界。两个参数与模型大小有关。
关键结论：
Softmax策略下，熵的改变与action的log概率和action的logits改变的协方差有关
PolicyGradient和NaturalPolicyGradient算法下logits的改变与action的advantage有关。
实验验证：
协方差与熵的变化值是呈现相关性的，并不是直接跟熵呈相关性
具体方案：
Clip-Cov：随机选取一部分高相关性的token，移除梯度贡献
KL-Cov：针对高相关性Token进行KL惩罚
协方差定义：
Clip-Cov公式：
I表示token索引
r代表随机选取比例
w_low,w_high是协方差的范围
KL-Cov公式：
k代表选取的比例
Rank代表排序
实验设置：
模型：Qwen2. 5
数据集：DAPO-Math
实验结果：
实验结论：
相比于基线GRPO，熵控制RL能够获得更高的熵，更长的response，更高的模型表现
相比于Clip-higher，熵控制RL的训练更加稳定，随着训练进行效果都在提升
超参数设置实验：
裁剪更高比例的token，Clip-Cov会有更高的熵
惩罚更高的系数，KL-Cov会有更高的熵
KL-Cov相比于Clip-Cov更加稳定
实验讨论：
Clip-Higher联系：Clip-higher包含了更多无效的低熵token，Higher只针对了正例Advantage的处理
论文链接：TheSurprisingEffectivenessofNegativeReinforcementinLLMReasoning
这篇论文的发现或许是三者中最反直觉，也最令人兴奋的。它将传统的强化学习目标拆解为两部分，并得出了一个惊人的结论：负向强化学习远比正向强化学习更有效。关键结论：
PSR鼓励正样本概率，提高了Pass@1但是降低了Pass@k
NSR惩罚不正确的样本概率，效率更高Pass@1和Pass@k都提高了
提出Weighted-REINFORCE算法，上采样NSR概率
RLVR的目标函数为：
其中可以将Reward为+1和-1的分别定义为PSR，NSR：
PSR与SFT相同，提高正例的概率
NSR降低负例的概率
实验设置：
模型：Qwen2. 5-Math-7B/Qwen3-4B
算法：PPO/GRPO
训练数据：Math训练集
实验结论：
NSR单独是很有效的，在Pass@1-64均取得很好的效果
NSR在大的K情况下超过或维持base模型效果。表明NSR促进了模型探索，保持了输出的多样性。
PSR提高了Pass@1但失去了多样性，k>8的时候出现了下降情况。
PSR没能够解锁模型的推理能力。图3中Qwen3-4Bnothink模式训练，PSR算法没能提高模型的推理能力，未能激活qwen3的推理能力。
实验分析（观测与梯度分析）
NSR能够取得优异表现的同时保持较高的熵，PSR的熵快速下降，GRPO/PPO介于二者之间。
PSR提高正确token概率降低其他所有token概率；NSR惩罚错误token概率，重分布其他token概率
NSR梯度分析关键结论：
保护高置信度的先验知识：当模型对某些token有很高的预测概率时，即使这些token出现在错误输出中，NSR也会通过缩放负梯度来减小更新幅度，从而保护模型在预训练中获得的基础语言知识。
基于先验的概率重分配：NSR会根据未采样token当前的概率，对输出分布进行软重排序，提升这些token的logits值。这使模型能够根据其先验信念有效地探索和寻找更好的候选项。
隐式防过拟合机制：NSR只在模型产生错误响应时才进行更新。一旦模型能够持续避免某些错误，NSR就会自然停止对这些样本的更新，这种停止准则可以防止模型过拟合或损失已掌握样本的多样性。
RLVR中目标函数为：
针对梯度进行求解，详细过程如下：
PSR和NSR的梯度更新如下：
从上述公式能够得出：
PSR通过提高正样本概率，将正样本概率推向1，降低其他token的概率。从而降低了训练过程中的熵。
NSR通过惩罚负样本概率，重新分配其他token概率，提高其他token的概率。
举个例子：
损失函数公式：
实验结果：
具体代码：
好了，今天这场关于大模型“熵”的深度探索之旅就到这里。我们通过三篇顶尖论文，层层递进地揭开了Token熵在强化学习中的神秘面纱。
让我们回顾一下今天的核心收获：
精准打击，事半功倍：我们不必对所有Token进行无差别强化。未来的RLHF/RLAIF，可以更专注于那些决定推理方向的高熵Token，从而大幅提升训练效率和效果。
熵是宝贵资源：模型性能的提升并非没有代价，它会消耗“熵”这一宝贵资源。理解并利用性能-熵的权衡关系，通过协方差正则化等手段打破熵的瓶颈，是通往更强模型的必经之路。
负向惩罚的力量：最令人惊喜的发现是，负向强化（NSR）在提升推理能力上展现出远超正向强化（PSR）的潜力。它通过温和地惩罚错误路径，而非强制灌输正确答案，巧妙地保留了模型的探索能力和多样性，为我们提供了一种全新的、更高效的强化学习范式。
总而言之，对Token熵的深入理解，正引领着大模型强化学习进入一个更加精细化、高效化的新阶段。从盲目地“大水漫灌”到精准地“滴灌”，再到利用“负反馈”的智慧，这些研究无疑为我们解锁更强大的AI推理能力，指明了清晰的方向。
进技术交流群请添加AINLP小助手微信（id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区，专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。