仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
打破常规:为什么LLM的最终答案可能不靠谱?
大型语言模型(如ChatGPT)解决复杂问题时,通常会生成一段“推理过程”,最后给出答案。传统评估方法只看最终答案的对错,但论文提出一个反直觉的观点:最终答案可能只是模型“临时起意”的结果,中间步骤的思考更值得深挖。
比如,模型在解数学题时,可能中途算错一步,但最后强行修正,导致答案错误;或者正确答案曾在中间步骤出现,却被后续错误推导覆盖。论文通过实验证明,只依赖最终答案可能错过更优解。
研究者将模型的推理过程切割成多个“子思考”(Subthoughts),例如看到“等一下”“换个角度”等提示词,就认为模型进入新思考阶段。然后,他们从每个中间步骤重新生成答案,形成一个答案分布。
关键发现:
正确答案往往在中间步骤频繁出现,而错误答案则波动较大。
答案分布越集中(熵值低),模型越可能正确;分布越分散(熵值高),错误概率越高。
公式辅助理解:熵值计算(衡量答案一致性):熵值低→答案集中→可信度高✅熵值高→答案分散→可能出错❌
论文提出一套简单但有效的流程:
截断思考:在模型的每个中间步骤(如“算到第3步”)处暂停。
重启生成:从暂停点重新生成后续推理,得到多个候选答案。
投票决策:选择出现次数最多的答案(众数模式)。
举个栗子🌰:假设模型解方程时,中间步骤生成过3次正确答案(96),但最终答案错误(50)。通过“分步检查法”,系统会统计出96是高频答案,从而纠正错误。
在数学竞赛题数据集(AIME2024/AIME2025)上测试:
非贪婪采样策略效果更好:允许模型“自由发挥”,探索更多可能路径。
小模型逆袭:1.5B参数的模型准确率提升高达13%,媲美大模型。
错误答案熵值高:错误问题的答案分布熵值平均比正确问题高2倍以上。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦