基模型Cognitive Behaviors对RL的影响

发布日期: 2025-04-15

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

简单读一下这篇：《CognitiveBehaviorsthatEnableSelf-ImprovingReasoners,or,FourHabitsofHighlyEffectiveSTaRs》
先说文章的结论：推理行为的存在，是模型能够在RL阶段获得显著提升的关键。这比答案是否正确更加重要。
文章相关代码都在：https ://github.com/kanishkg/cognitive-behaviors
Countdown游戏是一个数学游戏，玩家必须使用四个基本算术运算+,−,×,÷组合一组输入数字，以获得目标数字。例如，给定数字25、30、3、4和目标数字32，解决方案涉及通过一系列运算将这些数字组合起来：（30−25+3）×4=32。之所以叫Countdown是因为这是以前一个电视游戏节目，解题的时候会有个30s的倒计时，需要在限时内做出来才行。
研究人员以Countdown游戏的数据为训练数据，用强化学习（PPO）训练Qwen-2.5-3B和Llama-3.2-3B，结果发现Qwen的学习轨迹更好，训练后期准确性大幅提高，而Llama提升有限。Qwen在第30步左右就出现了质的提升，response明显增长，准确性也更高。训练结束时，Qwen的准确率达到了大约60%，远超过了Llama的30%。
另外，在训练的后期，Qwen的行为发生了一个有趣的变化：模型的思考从显式的验证文本“8*35is280whichistoohigh”过渡到隐式的思考。也就是模型不再碎碎念，而会更高效尝试不同的solution，直到找到正确的答案，而不需要使用文字来反思。
那为啥Llama比较差，差在哪里？或者说Qwen具备什么特性有助于模型在RL阶段提升效果，如果可以找到这个原因，那就可以通过放大这个特性从而在RL阶段获得更大的提升了。
直觉上，二者相差之处就在思考过程的内容上。为了验证这个差异，研究人员关注在模型的四个cognitivebehaviors：

(2)验证：Verificationorthesystematiccheckingofintermediateresults(e.g.,“Let’sverifythisresultby…”)

这4个行为有别于模型中常规的线性思考和推理–这些行为使得更加动态的搜索轨迹成为可能。
那么怎么看模型是否具备以上的思考行为呢？文中使用few-shotprompt+GPT4o-mini来判断模型输出中是否包含以上这些思考模式，以及包含多少：
结果发现Qwen的效果改进与cognitivebehaviors的出现相吻合，特别是verification和backtracking这两个模式：
而Llama就没有表现出这些认知行为。

这些观察说明：
initialpolicy中这些认知行为对于提升test-timecompute的效果有帮助
随着模型规模提升，这些认知行为也会更多
既然initialbehaviors对RL的效果有这样的影响，那么如果我们能优化initialbehaviors，那RL阶段就有可能获得更好的效果。
方法就是基于Countdown游戏数据集，用Claude-3.5-Sonnet构造包含不同思考过程的数据，有以下四种类型：
allstrategiescombined
backtrackingonly
backtrackingwithverification
backtrackingwithsubgoalsetting
backtrackingwithbackwardchaining
还有一个negative的，也就是不包含这些认知行为的。

要求模型输出各种认知行为的prompt都是systemprompt。比如allstrategies的systemprompt是这样的：
在这些不同的思考行为要求下，Claude-3.5-Sonnet的得分如下：
虽然在这些行为模式下并不总能推理出正确答案，但是思考行为是存在的。
用Claude-3.5-Sonnet生成的数据微调Qwen和Llama之后再进行RL，在效果上都有一定的提升；特别是Llama，能够从明显比Qwen差提升到和Qwen持平：
另外，使用答案错误但具有正确行为的数据训练模型，与包含正确答案的数据集训练的模型效果相当：
这说明，「推理行为的存在，是模型能够在RL阶段获得显著提升的关键。这比答案是否正确更加重要」。
既然这样的方法在Countdown上有效，那么下一步就是考虑怎么推广到通用领域。
直觉上，通用的预训练数据应该是比较缺乏这些认知行为的。把Qwen预训练数据中的OpenWebMath和FineMath中随机20w条样本拿出来，用Qwen-2.5-32B分析里面包含了多少这些重要的targetbehaviors。
放个分析用的prompt样例，比如backtracking：
结果确实比较少，加起来不超过20%。这还是和reasoning密切相关的数学数据集，其他更加通用的数据所包含的认知行为数量就可想而知了。
既然如此，那就用OpenWebMath构造两个数据集：
behaviorsminimized：几乎不包含任何cognitivebehavior的数据
cognitivebehaviors：都包含cognitivebehavior的数据
然后用Qwen-2.5-32B把这些数据都重写成question-thought-answer的格式，最后两个数据集分别都包含8.3Mtoken。
Llama-3.2-3B在这两个数据集上进行预训练+RL之后，观察到：
用cognitivebehaviors数据训练过的Llama达到Qwen的水平，而behaviorsminimized数据预训练的则没有明显改进
用cognitivebehaviors数据训练过的Llama在整个训练过程都表现出丰富的reasoningbehavior
从人类认知行为学习高级的思考方式应用于模型思考是个不错的路子，至少在达到人类专家水平的目标上是有帮助的
Qwen确实是很不错的base模型
年轻人好好写prompt
【1】CognitiveBehaviorsthatEnableSelf-ImprovingReasoners,or,FourHabitsofHighlyEffectiveSTaRs
进技术交流群请添加AINLP小助手微信（id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区，专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。