Think Twice: 我最好的“作品”永远是下一个

发布日期: 2025-04-20

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

提纲
1简介
2ThinkTwice
3实验
4讨论
参考文献
1简介
目前先进的LLM，如deepseek-r1或者openai-o1，已经验证了在推理过程通过增加推理过程可以显著增加推理能力，但是依旧会收到长文本处理能力跟强化学习RL训练效率的影响。于是乎，a-m-team的研究人员提出了一种新的简单且有效的推理方案，Multi-roundThinking，这种方案会利用先前的结果作为后续轮次的信息输入来优化模型输出，反复迭代。最终在多个评测benchmark，新方案取得普遍提升，且跟推理轮次呈现正相关。
ThinkTwice不同于常规的COT，每一轮的信息输入只包括上一轮的最终结果，但不用到上一轮的推理过程。它的强大之处在于下一次推理结果总是优于上一次，颇有“我最好的作品永远是下一个”的即视感。
2ThinkTwice
ThinkTwice是一个反复进行的pipeline，具体流程如下：
1首先需要设置一个原始的userprompt，即P_user。
2在第一轮推理时，直接让LLM生成对应的推理过程跟结果。
LLM(P_user)=[Thinking_1,Answer_1]
3在后续迭代推理时，会将上一轮的推理结果也作为输入，生成当前轮的推理过程跟结果。直到达到预先设置好的轮次后结果，并以最后一轮的推理结果作为最终输出。
LLM(P_user,Answer_(n-1))=[Thinking_n,Answer_n]
具体的prompt组织形式如下
OriginalquestionpromptTheassistant’spreviousansweris:lastroundanswer,andpleasere-answer.
归根到底，这是一种递归的refine操作，不断对前一轮的answer进行refine，生成更加合适的answer。同时由于没有用到上一轮的推理过程，所以有效地减少了认知惯性，避免受到之前错误思路的影响。通过这样的迭代方式，模型能够逐步挖掘问题的更多细节，修正可能出现的错误，进而提升最终答案的准确性。
3实验

1.在AIME2024数据集上，QwQ-32B模型的准确率从第一轮的80.3%提升到了第二轮的82.1%，DeepSeek-R1模型也有类似的提升，从79.7%提高到82.0%。这些数据直观地表明，Multi-roundThinking方法确实能让模型在不同任务上表现得更加出色。无论是数学问题求解，还是其他复杂的自然语言处理任务，多轮推理都为模型提供了更深入思考和修正错误的机会，使得模型能够输出质量更高的答案。
2.对QwQ模型做进一步分析发现，随着thinking次数的增加，整体准确性也有明显的提升。
3.为了进一步分析thinking背后的秘密，研究人员统计了but,wait,maybe,therefore这四个词的出现频率（这几个词是犹豫跟果断的语言信号，追踪它们可以理解模型的置信度跟推理动态）。从图中可以发现第二轮时这次几个词频率的下降态势，显示ThinkTwice会让模型在回复时会更加自信简洁。
4讨论
这篇论文提出的Multi-roundThinking方法为提升LLM推理能力提供了一种简单而有效的途径。通过多轮迭代推理，模型能够不断完善答案，在多个基准测试中取得了令人瞩目的成绩。不过，这一方法也可能面临一些挑战，比如随着推理轮数增加，推理时间会相应延长，如何在提升性能和控制时间成本之间找到平衡，是未来需要进一步研究的方向。
看到ThinkTwice后很容易联想到曾经火出圈的Let’sthinkstepbystepPromptlearning系列之Let’sthinkstepbystep。这两种方案都属于无需训练的推理技巧，都能显著提升模型的推理能力，提高最终回复的准确性。但是ThinkTwice是一种只要你愿意，可以无限循环下去的方案，并且大部分时候下一轮的回复质量都不会变差。就像你在勤练苦练一门技能，每次你会看到上一次的表现，然后下一次你就会做得更好，每次挥一剑，一剑更比一剑强。但是这种方式是有明显上限的，如何更加快速的找到推理轮次跟准确性的关系曲线是值得思考的事情，因为从实验结果可以看到随着推理轮次的增加，边际收益也在持续下降。
关于为什么不用到上一轮的推理过程，我觉得最大的考虑就是担心一旦某次推理过程出错，相应的错误思路会影响后续的推理，变得无法挽回。在基底模型足够强大的情况下，提供一个作为参考的answer已经是有价值了。
参考文献
1ThinkTwice:EnhancingLLMReasoningbyScalingMulti-roundTest-timeThinking
https ://arxiv.org/abs/2503.19855
进技术交流群请添加AINLP小助手微信（id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区，专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。