高熵驱动,负向为王:熵感知强化学习如何重塑大模型推理


高熵驱动,负向为王:熵感知强化学习如何重塑大模型推理

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

最近,如果你关注大模型(LLM)领域,你可能会发现一个词的热度正在飙升——Token熵。这并非偶然,近期相继发表的三篇重磅论文,都不约而同地将目光投向了它,深入探讨了Token熵在强化学习(RL)中对大模型推理能力的关键影响。
这几篇论文的研究方向非常有意思:从只用“高熵Token”就能高效提升模型性能,到揭示模型表现与熵之间存在的“宿命般”的数学关系,再到最后发现“负向惩罚”居然比“正向激励”更有效的惊人结论。这些发现,正在悄悄颠覆我们过去对大模型强化学习的一些传统认知。
这篇文章的目的,就是带大家系统地梳理这三篇论文的核心脉络,用通俗易懂的语言,把“Token熵”这个看似玄乎的概念彻底讲明白。我们会一起探索,为什么说它是解开大模型推理能力提升之谜的钥匙。
文章核心结论速览:
高熵Token是关键:在大模型强化学习中,真正驱动推理能力提升的,主要是那约20%的不确定性高的“决策Token”(高熵Token)。而忽略剩下80%的“填充Token”(低熵Token)进行训练,效果反而更好。
性能与熵的权衡:模型推理性能的提升,往往伴随着熵的“燃烧”。性能与熵之间存在一个可预测的反比关系,模型的性能上限受其能维持的熵水平所制约。
负向强化出奇效:传统的正向强化学习(奖励正确的,类似SFT)会快速消耗模型的熵,导致模型“过拟合”而失去探索能力。而负向强化学习(惩罚错误的)则能有效保持输出多样性,在提升准确率(Pass@1)的同时,还能显著提高模型的探索能力(Pass@k)。
话不多说,让我们一起进入大模型推理的“熵”之谜。
文章结构如下:
在深入探讨之前,我们必须先弄明白一个基本概念:**Token熵(TokenEntropy)**。
用大白话讲,Token熵衡量的是模型在生成下一个Token时的“不确定性”或“选择困难程度”。
高熵:模型觉得好几个词都可以,拿不定主意。比如,在“我今天午饭吃…”后面,可以是“面条”、“米饭”、“沙拉”,模型对这些选项的概率预测都比较平均,此时熵值就高。
低熵:模型非常确定下一个词应该是什么。比如,在“一加一等于…”后面,模型会以极高的概率预测“二”,此时熵值就低。
其数学定义如下:
其中,是模型在第步预测的词表(Vocabulary)中所有Token的概率分布。
在强化学习中,熵的概念直接关联到那个经典的探索(Exploration)与利用(Exploitation)的平衡问题。一个熵值过低的模型,就像一个只会走大路的老司机,虽然稳,但永远发现不了风景更好的小路。它会固守已知的、安全的推理路径,从而限制了发现更优解的可能性。因此,如何科学地管理和利用Token熵,成为了提升模型复杂推理能力的关键。
论文链接:High-EntropyToken-DrivenLearningforReasoning
限制梯度更新在高熵token熵,利用20%的高熵token取得更优效果,在80%的低熵token上效果下降
模型表现:

关键结论:
低熵Token大部分是完成既有的语言结构,高熵Token则是在不同推理路径的决策Token
RL未改变Base模型的熵分布,RLVR仅改变高熵token的熵
20%的高熵token能够在探索利用间平衡取得最优效果
Token熵计算方式,第t步token的分布:
Qwen3-8B,AIME24/AIME25数据,Temperature1中10^6个ResponseToken熵分布:
实验结论:
图2(a)少部分token是高熵的,大部分是低熵的,50%的熵低于10-2,20%的高于0. 672
图2(b)中高熵的token是连接词(suppose/assume),低的是确定性的词语(sin/cos)
高熵token作为分叉的token,导向不同推理的分支
给熵不同的token赋予temperate,测试不同熵token对模型效果的影响:
Temperature越低确定性越高,熵分布越低
高熵token在降低temperature,降低分布熵后,效果下降更明显
实验设置:
算法:DAPO
模型:Qwen3-14BBase
方式:统计不同训练阶段的Top20%熵token与Base模型分布的重合比例
实验结果:
1360step后仍然保留86. 67%的高重叠率,RLVR后大部分保留了Base模型的熵分布
实验设置:
算法:DAPO
模型:Qwen3-14BBase
方式:统计Base模型熵分布的不同分位点token在RLVR后的改变比例
实验结果:
高熵tokenRLVR后改变更大,低熵token基本保持不变
具体方案:仅利用高熵Token的策略梯度训练,挑选一个MicroBatch内的Top熵token进行训练
实验设置:
算法:DAPO
核心参数:Top20%熵token参与梯度计算
实验结果:
表2和图6表明忽视80%的低熵token对模型表现无负面影响,还有提升。表面RLVR中的模型能力提升由高熵token带来,低熵token无效果甚至有损模型表现
图7表明模型表现与高熵token比例强相关,14B/32B模型中,降低高熵token比例模型表现略微下降,使用全部token则大幅下降
图7(a)表明低熵token训练带来了重大的下降,低熵token对增强模型推理能力贡献甚微
高熵token能够增强模型高效探索的能力,约20%的高熵token能够在探索和利用取得平衡,反而如果新增更多的token可能会探索有害,特别是在收敛之前的阶段
图8表明高熵token训练对更大模型更有帮助
实验分析:
高熵Token训练具有泛化性,在Math数据集上训练,结论在Livecodebench测试具有相同的结论
高熵Token训练能够解锁更强的推理能力。在32BSOTA模型上扩展输出长度至29K,模型能力进一步提高
高熵Token训练在非Qwen模型同样适用,在1W条数据冷启动后的Llama模型上结论同样适用。
RL提高高熵token的熵,保留了推理的多条路径
SFT拟合数据,降低了高熵token的熵,减少了推理路径的可能性
Base模型中在预训练的先验知识下,COT中包含了多数的低熵Token和少数的高熵Token,这是因为LLM中大规模先验知识对语言流畅性的要求
论文链接:TheEntropyMechanismofReinforcementLearningforReasoningLanguageModels
如果说第一篇论文告诉我们“要关注什么”,那么这篇论文则深入探讨了“为什么”,并揭示了模型性能与熵之间一个近乎“宿命”的数学关系。
关键结论:
在没有entropyloss与KLloss的情况下,模型表现与Entropy的关系可预测,公式如图所示
模型表现上界也受熵影响,RL训练需要打破熵的瓶颈

限制高协方差的token进行梯度更新,有助于提高熵上界。提出两种方式限制高协方差token进行梯度更新:
Clip-Cov:选择一部分高协方差token,移除梯度
KL-Cov:针对高协方差token进行KL惩罚
关键结论:
模型下游任务表现可根据熵进行预测
关键系数a,b反应了策略与数据的内部特征
模型上界-a+b成为扩展RL提高模型推理能力的阻碍
实验设置:
模型:Qwen2. 5/Mistral/LLaMA/DeepSeekBase模型
数据:MATH500/AIME2024/AMC/OlypiadBench/OMNI-MATH/Eurus-2-RL-Code/KodCode
算法:GRPO/REINFORCE++/PRIME
图2说明93%的模型能力提升同步消耗了93%的熵,即熵在初期快速下降,同时该阶段模型能力提高
图3与图4展示出不同任务与不同模型的拟合曲线,可以通过位于训练初期的高熵点预测低熵的模型表现,如图5所示:
a,b参数与RL算法无关,如图6所示,不同算法的曲线相同
a代表模型转换熵到模型表现的效率,-a+b代表模型的能力上界。两个参数与模型大小有关。
关键结论:
Softmax策略下,熵的改变与action的log概率和action的logits改变的协方差有关
PolicyGradient和NaturalPolicyGradient算法下logits的改变与action的advantage有关。
实验验证:
协方差与熵的变化值是呈现相关性的,并不是直接跟熵呈相关性
具体方案:
Clip-Cov:随机选取一部分高相关性的token,移除梯度贡献
KL-Cov:针对高相关性Token进行KL惩罚
协方差定义:
Clip-Cov公式:
I表示token索引
r代表随机选取比例
w_low,w_high是协方差的范围
KL-Cov公式:
k代表选取的比例
Rank代表排序
实验设置:
模型:Qwen2. 5
数据集:DAPO-Math
实验结果:
实验结论:
相比于基线GRPO,熵控制RL能够获得更高的熵,更长的response,更高的模型表现
相比于Clip-higher,熵控制RL的训练更加稳定,随着训练进行效果都在提升
超参数设置实验:
裁剪更高比例的token,Clip-Cov会有更高的熵
惩罚更高的系数,KL-Cov会有更高的熵
KL-Cov相比于Clip-Cov更加稳定
实验讨论:
Clip-Higher联系:Clip-higher包含了更多无效的低熵token,Higher只针对了正例Advantage的处理
论文链接:TheSurprisingEffectivenessofNegativeReinforcementinLLMReasoning
这篇论文的发现或许是三者中最反直觉,也最令人兴奋的。它将传统的强化学习目标拆解为两部分,并得出了一个惊人的结论:负向强化学习远比正向强化学习更有效。关键结论:
PSR鼓励正样本概率,提高了Pass@1但是降低了Pass@k
NSR惩罚不正确的样本概率,效率更高Pass@1和Pass@k都提高了
提出Weighted-REINFORCE算法,上采样NSR概率
RLVR的目标函数为:
其中可以将Reward为+1和-1的分别定义为PSR,NSR:
PSR与SFT相同,提高正例的概率
NSR降低负例的概率
实验设置:
模型:Qwen2. 5-Math-7B/Qwen3-4B
算法:PPO/GRPO
训练数据:Math训练集
实验结论:
NSR单独是很有效的,在Pass@1-64均取得很好的效果
NSR在大的K情况下超过或维持base模型效果。表明NSR促进了模型探索,保持了输出的多样性。
PSR提高了Pass@1但失去了多样性,k>8的时候出现了下降情况。
PSR没能够解锁模型的推理能力。图3中Qwen3-4Bnothink模式训练,PSR算法没能提高模型的推理能力,未能激活qwen3的推理能力。
实验分析(观测与梯度分析)
NSR能够取得优异表现的同时保持较高的熵,PSR的熵快速下降,GRPO/PPO介于二者之间。
PSR提高正确token概率降低其他所有token概率;NSR惩罚错误token概率,重分布其他token概率
NSR梯度分析关键结论:
保护高置信度的先验知识:当模型对某些token有很高的预测概率时,即使这些token出现在错误输出中,NSR也会通过缩放负梯度来减小更新幅度,从而保护模型在预训练中获得的基础语言知识。
基于先验的概率重分配:NSR会根据未采样token当前的概率,对输出分布进行软重排序,提升这些token的logits值。这使模型能够根据其先验信念有效地探索和寻找更好的候选项。
隐式防过拟合机制:NSR只在模型产生错误响应时才进行更新。一旦模型能够持续避免某些错误,NSR就会自然停止对这些样本的更新,这种停止准则可以防止模型过拟合或损失已掌握样本的多样性。
RLVR中目标函数为:
针对梯度进行求解,详细过程如下:
PSR和NSR的梯度更新如下:
从上述公式能够得出:
PSR通过提高正样本概率,将正样本概率推向1,降低其他token的概率。从而降低了训练过程中的熵。
NSR通过惩罚负样本概率,重新分配其他token概率,提高其他token的概率。
举个例子:
损失函数公式:
实验结果:
具体代码:
好了,今天这场关于大模型“熵”的深度探索之旅就到这里。我们通过三篇顶尖论文,层层递进地揭开了Token熵在强化学习中的神秘面纱。
让我们回顾一下今天的核心收获:
精准打击,事半功倍:我们不必对所有Token进行无差别强化。未来的RLHF/RLAIF,可以更专注于那些决定推理方向的高熵Token,从而大幅提升训练效率和效果。
熵是宝贵资源:模型性能的提升并非没有代价,它会消耗“熵”这一宝贵资源。理解并利用性能-熵的权衡关系,通过协方差正则化等手段打破熵的瓶颈,是通往更强模型的必经之路。
负向惩罚的力量:最令人惊喜的发现是,负向强化(NSR)在提升推理能力上展现出远超正向强化(PSR)的潜力。它通过温和地惩罚错误路径,而非强制灌输正确答案,巧妙地保留了模型的探索能力和多样性,为我们提供了一种全新的、更高效的强化学习范式。
总而言之,对Token熵的深入理解,正引领着大模型强化学习进入一个更加精细化、高效化的新阶段。从盲目地“大水漫灌”到精准地“滴灌”,再到利用“负反馈”的智慧,这些研究无疑为我们解锁更强大的AI推理能力,指明了清晰的方向。
进技术交流群请添加AINLP小助手微信(id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区,专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录