普林斯顿团队首次提出不确定性量化新范式,让Reasoning模型会说“我不知道”


普林斯顿团队首次提出不确定性量化新范式,让Reasoning模型会说“我不知道”

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大型语言模型(LLM)在复杂推理任务中取得突破性进展,但其\“幻觉\“(自信但错误的回答)仍是安全落地的核心障碍。普林斯顿团队首次系统评估推理模型的不确定性量化能力,揭示三个关键问题:
模型是否知道自己的无知?
让模型\“多思考几步\“会否更可靠?
自我反思能否纠正过度自信?
论文:ReasoningaboutUncertainty:DoReasoningModelsKnowWhenTheyDon’tKnow?
链接:https ://arxiv. org/pdf/2506. 18183v1
通过分析Claude3. 7、DeepSeekR1等SOTA模型在ARC、GPQA等5大基准的表现,论文揭露了推理模型的校准危机,并提出了颠覆认知的解决方案。
推理模型的崛起:基于强化学习的链式推理(Chain-of-Thought)技术,使模型在编程(Codeforces)、数学(AIME)、专业考试(GPQA)等任务超越人类专家。
可靠性危机:模型常对错误答案呈现>85%的置信度(如论文开篇案例将1969年误答为1961年且置信度75%),这种过度自信在医疗、法律等高风险场景可能引发灾难。
研究空白:传统UQ方法(如基于熵的白盒方法)无法用于闭源模型(如Claude),而黑盒方法在推理模型领域尚未探索。
论文直指三个核心矛盾:
校准陷阱:当模型在GPQA(博士级难题)准确率仅40%时,其平均置信度仍高达70%+。
深度推理悖论:增加推理步骤虽可能提升准确率,但会加剧过度自信(尤其当答案错误时)。
人类启发:人类通过复查思维过程验证答案,模型能否通过反思推理链提升校准?
模型需满足:当声明置信度为时,其实际准确率应为。完美校准公式:
实际中通过分组逼近,定义两大量化误差:
预期校准误差(ECE):
符号解释:将置信度[0,1]均分为M个区间(如10组),为第m组样本,是该组实际准确率,是平均置信度。ECE越低,校准越好。
最大校准误差(MCE):
反映最坏情况下的校准偏离,对安全关键系统尤为重要。
论文对比四类零样本提示法:
基础提示:直接要求答案和置信度。
链式推理(CoT):强制模型分步思考(\“Analyzestepbystep\“)。
多步提示:对推理的每一步输出置信度。
Top-K提示:生成5个备选答案并分别评估置信度。
关键发现:与传统LLM不同,CoT对推理模型无显著增益(因其本身已内置推理能力)。
受人类\“复查\“行为启发,提出两阶段框架:
初阶段:模型回答问题并输出置信度(如:\“Q:…A:…Confidence:85%\“)。
反思阶段:新模型实例分析初阶段推理链,评估原答案置信度,分三级严谨性:
IUQ-Low:中性评估原推理
IUQ-Medium:主动寻找原推理缺陷
IUQ-High:不提供初阶段置信度,强制独立批判
示例:当模型错误回答艺术展年份时,反思阶段发现其依赖\“模糊传记猜测\“,将置信度从75%降至40%。
模型:Claude3. 7Sonnet,DeepSeekR1,Gemini2,o3-Mini
数据集
特点
模型平均准确率
ARC-Challenge
常识推理

90%
MMLU
多领域专业测试
90%
StrategyQA
隐式推理需求
~80%
GPQA
博士级学科难题
~40%
SimpleQA
对抗性构造(GPT-4错误题)
<40%
问题1:模型严重过度自信在GPQA/SimpleQA等困难任务中,Gemini和o3-Mini的置信度集中85%-100%,但实际准确率不足50%。Claude是唯一相对校准的模型(ECE比第二名低28%)。
问题2:更深层推理恶化校准当增加推理token预算(RE-Low→RE-High):
错误答案的置信度不降反升(如o3-Mini在错误答案上ECE增加7%)
高置信区间(90%-95%)样本密度增加,但准确率下降悖论解释:类似人类,模型在错误答案上\“过度思考\“会强化错误逻辑链条。
问题3:反思式UQ的有效性与风险
成功案例:IUQ-Medium使DeepSeek在SimpleQA的ECE降低15%,因其发现自身推理的\“模糊传记依赖\“缺陷。
失败案例:Claude经反思后置信度不降反升(如GPQA案例中IUQ-Medium将95%→95%),因封闭架构可能强化自我辩护机制。
校准与准确率的负相关:所有模型的ECE与准确率呈强负相关(Gemini(r=-1)),高准确率掩盖校准问题(如ARC任务中90%准确率使过度自信难以检测)。
基准失效警告:模型在旧基准(ARC/MMLU)校准良好,但在新对抗基准(GPQA/SimpleQA)表现糟糕,揭示传统基准已无法有效评估不确定性。
反思式UQ的模型差异:开放模型(DeepSeek/o3-Mini)经批判性反思后校准提升,闭源模型(Claude)可能因内部优化目标冲突而恶化。
本文首次揭示推理模型的校准危机:
普遍过度自信:尤其在专业领域,错误答案常伴>85%置信度。
深度推理的双刃剑:提升准确率却加剧错误答案的自信。
反思的有效性与风险:批判性自我审查可提升开放模型校准(如DeepSeek),但闭源模型可能恶化。
备注:昵称-学校/公司-方向/会议(eg. ACL),进入技术/投稿群
id:DLNLPer,记得备注呦


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录