Knowledge还是Reasoning?具体分析LLM答案正确,不代表思考过程靠谱的问题
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
当我们夸AI“很聪明”时,到底在夸什么?斯坦福/加州大学团队戳破了一个行业盲点:大模型的答案正确,不代表思考过程靠谱!
案例:面对肘内翻治疗题,模型能正确推理疾病特征(知识正确),却推荐了副作用更大的药物氟米龙(决策错误)——像极了“知识全会,一用就废”的医学生。
传统评估只盯着最终答案的对错,却忽略了思考路径中的“知识错误”和“废话推理”。这正是医疗AI事故频发的潜在风险!
团队提出双维度评估框架,像X光一样透视模型的思考过程:
示例:说“化疗药顺铂通过自由基损伤听力”就是知识错误(实为DNA交联)
公式:PPL值下降越多,说明该步推理越有效
这套工具首次实现“知识准确性”与“推理效率”的分离评估!
通过测试5大医疗数据集和5类数学题,发现:
领域
决胜关键
最佳训练法
典型数据
医疗
SFT
KI提升6. 2%
数学
RL
InfoGain升38%
反常识结论:
SFT训练(教知识点)反而伤害推理能力:医疗模型信息增益暴跌38. 9%
RL训练(强化学习)能当“思维修剪师”:剪掉错误知识分支,使医疗决策更安全
数学界冷知识:RL训练后的模型在AMC数学竞赛准确率高达61. 7%,碾压SFT训练的51. 9%
RL为何能打造更靠谱的AI医生?关键在知识纠错机制:
不是教新知识:RL训练后模型知识量几乎不变
而是优化选择:自动规避错误知识路径
结果:纯RL训练使医疗知识正确率飙升12. 4%,超越人类医学生的提升幅度!
这套评估框架正在解锁新场景:
法律界:适配IRAC框架(问题-规则-应用-结论)评估模型检索法条准确性(知识)vs案例推演能力(推理)
金融界:结合时序数据验证经济模型应用例如:预测油价时,知识=原油库存数据准确性,推理=供需模型应用逻辑
研究者预言:知识密集型领域(医疗/法律)将优先受益于该技术!
备注:昵称-学校/公司-方向/会议(eg. ACL),进入技术/投稿群
id:DLNLPer,记得备注呦