Reasoning的最终答案可能不是模型想要的答案！

发布日期: 2025-05-02

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

打破常规：为什么LLM的最终答案可能不靠谱？
大型语言模型（如ChatGPT）解决复杂问题时，通常会生成一段“推理过程”，最后给出答案。传统评估方法只看最终答案的对错，但论文提出一个反直觉的观点：最终答案可能只是模型“临时起意”的结果，中间步骤的思考更值得深挖。

比如，模型在解数学题时，可能中途算错一步，但最后强行修正，导致答案错误；或者正确答案曾在中间步骤出现，却被后续错误推导覆盖。论文通过实验证明，只依赖最终答案可能错过更优解。
研究者将模型的推理过程切割成多个“子思考”（Subthoughts），例如看到“等一下”“换个角度”等提示词，就认为模型进入新思考阶段。然后，他们从每个中间步骤重新生成答案，形成一个答案分布。
关键发现：
正确答案往往在中间步骤频繁出现，而错误答案则波动较大。
答案分布越集中（熵值低），模型越可能正确；分布越分散（熵值高），错误概率越高。
公式辅助理解：熵值计算（衡量答案一致性）：熵值低→答案集中→可信度高✅熵值高→答案分散→可能出错❌
论文提出一套简单但有效的流程：
截断思考：在模型的每个中间步骤（如“算到第3步”）处暂停。
重启生成：从暂停点重新生成后续推理，得到多个候选答案。
投票决策：选择出现次数最多的答案（众数模式）。
举个栗子🌰：假设模型解方程时，中间步骤生成过3次正确答案（96），但最终答案错误（50）。通过“分步检查法”，系统会统计出96是高频答案，从而纠正错误。
在数学竞赛题数据集（AIME2024/AIME2025）上测试：
非贪婪采样策略效果更好：允许模型“自由发挥”，探索更多可能路径。
小模型逆袭：1.5B参数的模型准确率提升高达13%，媲美大模型。
错误答案熵值高：错误问题的答案分布熵值平均比正确问题高2倍以上。
备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群
id：DLNLPer，记得备注呦