梳理 RL-reasoning 的进展

发布日期: 2025-06-03

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

作者：还可以
https ://zhuanlan. zhihu.com/p/1912490700861334326
将RL-reasoning这几个月的进度条总结汇总一下，还有一些小的嘴碎，涉及一些重要论文的发布时间节点。
以下的汇总肯定有不足和遗漏，希望大家能够补充和指出。
我们将这段时间大致分为，RL-reasoning的兴起-冷静-挨打。我们可能着墨于冷静-挨打的描写！

随后的相关工作是GRPO函数的修改：
DAPO在GRPO的基础上添加了些许四个小技巧。
作者鼓励更高的clip，通过解耦上下裁剪范围，增加低概率token的探索空间。
现有的RL算法在面对准确率为1的提示时，往往会出现梯度消失问题。DAPO通过动态采样策略，过滤掉准确率为1和0的提示，确保每个批次中的提示都具有有效的梯度信号。
GRPO使用样本级别的损失，导致长响应中的token对整体损失的贡献较低。DAPO引入了Token-Level策略梯度损失。
但其实这项技术基本上大家都已经提前使用了。
DAPO提出了软过长惩罚机制，通过长度感知的惩罚区间，逐步增加对过长响应的惩罚，从而减少奖励噪声并稳定训练。
DR. GRPO的作者通过推导，认为从pollicy-gradient推导出GRPO不应该有std和
在这里我评价一下，虽然作者进行了一些证明，但在效果上个人复现反而带来了下降，特别是去除Std。
GPG彻底使用policy-based的方法，去除了其他的PPO小trick
可以看到啊，非常的简化啊。当然仍然离不开一些小操作，比如GRPO优势全为0，已经std的难度操作。
最后的效果如下图，同时作者还斜体cue了一下Dr. GRPO的操作没有效果。
研究更高效的推理（竞争十分激烈，曾有2天Arixv放出10+篇）：推理长度优化、thinkornothink。
高质量样本的筛选。
在这里我们首先请出清华的这篇《DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel?》
作者发现由RLVR训练的模型生成的推理路径已经以相当大的概率密度存在于基础模型的输出分布中，RL模型能解决的问题，Base模型也能够解决，仅需要多次采样。
并且在Pass@k（检测直观理解是给模型多次机会，至少有一次通过的概率计算）的指标下，RL训练的模型能力上限是低于Base原始模型能力的上限。可以理解为RL仅仅提高了采样效率，
我自己因为刚入行RL-reasoning，面对这种现象也是很吃惊和小沮丧的，但经大家提醒才发现其实Deepseekmath就已经报道过这种情况（如下图）
无论如何，到这里把RL作为提高采样效率的手段话，仍然是非常有价值的。接下来的进展就有点。。。。
我们按照时间顺序讲解一下
EMPO不依靠真实的Ground-truth，而是采用将模型的responses进行聚类分类，并且奖励是鼓励所有的responses都是一类。
模型效果如下图，个人感觉其实baseline没有经过好好训练，但方法有效性的目的也是达到了。不过，论文其实就有点像最小化熵的形式了，很可惜没有直接转成最小化熵，不然的话现在好几篇论文怕是要发不出来了
通过将major@k局限性不如EMPO采用分类的形式，因为在一些没有固定答案的情况下难以实行，EMPO却可以，不过也差不多。
我是不喜欢他的这个test-time强调的，因为从效果上看，其使用的计算量不如直接major@k，我更好奇的是他在训练集上训练会怎么样？
同时更早之前DPO的思路就有将major@k用作伪正标签的做法，但也没有提到test-time。
有趣的是有一篇论文《CanLargeReasoningModelsSelf-Train？》跟TTRL基本上一样但是就是在训练集训练，测试集测试。不知道回来审稿人怎么处理李逵和李鬼。。。
不过到这里就已经品出来一些味道了，我们的模型似乎并不需要外部答案，他通过自己内容就可以了吗？但在这个时间点下，局势尚未明朗
这篇论文研究将entropy作为目标进行训练，它分为了三种模型：
•EM-FT：最小化令牌级别的熵，但基于从模型中提取的未标记输出（偏向SFT）。
•EM-RL：以负熵为唯一报酬最大化的强化学习。
•EM-INF：推理时间logit调整以降低熵，无需任何训练数据或参数更新。
奇怪的是作者不知道为什么采样的数量是4，少了。。。
这几篇论文的接连出现虽然给了笔者的RL-reasoning热情狠狠地重拳一击，但仍然保持着相当的，但接下的几篇文章的出现确实有些难崩了
同样也是非常出名的一篇，作者仅使用一个单一样本多轮训练就能够取得不错的效果，样本的选取是以方差作为标准的。丝，这么说的话，也可以理解为选取模型熵较大的数据，来减小模型的熵。
我开始读论文的时候，同样吃惊，随后想到的是会不会是格式的问题？随后作者在一个星期后进行了相应的实验，并添加到最新版arxiv中去。
同时也可以看到entropyloss有很大作用。但很可惜作者没有检测一下只有entropy会是什么样的情况，让下面的工作捡漏了
跟上一篇的思路很像，One-shot样本训练10步，但却是直接拿entropy做奖励。模型效果对比图如下，效果仍然很好（小声逼逼，感觉有点不稳，avg显示的提升很多是来自AMC，但AMC又太随机了）。
小注意的一点是，生成的长度也太短了吧？
同时作者探查了logis的分布，entropy增加了整体模型的置信度，将概率质量集中在令牌的子集上。因此，原logits中先前的高概率区域被扩展到长尾高概率区间。
这篇论文做的比较全面，他研究了不同奖励：随机奖励、错误奖励、格式奖励、major、正确奖励的不同效果。这篇文章出奇的展示了随机奖励和错误奖励的效果。
随机奖励和错误奖励这些虚假奖励也能提升我们模型的效果，这样其实已经很明了了。就是简单的提升模型本身的置信度，毕竟模型的输出本身就是模型比较有信心的部分。
这篇论文最好的一点是基础模型族选取的广泛，乍一看似乎打击了RL-reasoning的有效性，虚假奖励虽然能够提升Qwen或者llama但是对于一些干净的模型Olmo则是没有效果的，而我们的RL却是有用的，
同时呢，这篇论文将所有奖励在同一个论文作者设置下进行了实验，免去了一些不同论文的对比。我们也能够看出，就算是Qwen模型，使用正确的RL-reasoning也能取得4、5个点的提升效果相较于加强置信度。
整体的研究发现趋势是：借助外部答案来进行探索学习-使用替代的外部答案探索学习-不需要外部答案进行探索学习-不进行知识学习而改变模型。
当然无论怎样，主要的模型本身自己的iteration过程是要有的，要自己采样。
我们的rollout确实有问题（迫真）。我们所有的rollout的采样都可以视为模型自己本身较为有信心的生成输出，然后在这上面进行修订。因此，采取一些强信心手段也就能够取得一些效果
但大家也不要灰心丧气，上述的很多问题的发现其实都是在简单的在MATH情景以及模型内部能力下的探索。
往期推荐
从十篇论文中探讨：如何解决推理模型的\“过度思考\“问题？
大模型推理能力飙升，但背后的代价是什么呢？
Qwen3如何实现快慢混合思考、可启动关闭
进入大模型技术群，备注：进群。
添加好友：baobaogpt，记得备注