会做题还会检查!字节Seed提出Heimdall模型让解题正确率暴增30%
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
LLM解题的痛点:会做题,但不会检查
现在的大模型解题能力越来越强,甚至能搞定奥数题,但“做完题不会检查”成了致命短板。比如,解完题后,可能因为中间某步计算错误而给出错误答案,但它自己却无法发现。
论文:Heimdall:test-timescalingonthegenerativeverification链接:https ://arxiv.org/pdf/2504.10337
论文提到,当前顶级模型如GPT-4的直接验证准确率仅62.5%,相当于考试时做完题随便蒙答案——显然不够可靠。
人类启示:爱因斯坦提出相对论前,通过验证光速不变悖论修正了经典物理理论。验证能力是知识创新的核心,LLM也需要这样的能力。
Heimdall(名字源自北欧神话中能洞察万物的守护神)是一个专为验证而生的模型。它的核心能力是通过长链思维推理(Chain-of-Thought,CoT),像人类一样逐步检查解题过程的每一步。
用强化学习训练,让LLM学会“自我纠错”;
验证准确率从62.5%提升到94.5%,多次采样后达到97.5%;
甚至能发现训练中从未见过的数学证明题错误。
强化学习框架:用PPO算法(类似教模型“对答案给奖励,错答案扣分”);
数据过滤:剔除两类题目——
太简单(所有解法都对);
太难(所有解法都错)。就像老师布置作业时,避免全是“1+1”或“哥德巴赫猜想”,否则学生学不到真正的判断能力。
多次采样+投票:让模型对同一题多次验证,取多数结果(类似多人会诊);
悲观验证算法:优先选择“最确定正确”的答案,避免被错误答案带偏。
在AIME数学竞赛题测试中:
单次验证准确率94.5%,64次采样后达到97.5%;
结合解题模型(如Gemini2.5Pro),整体解题准确率从54%提升到93%,接近人类顶尖水平。
传统“多数投票”准确率仅70%;
悲观验证算法通过平衡“解题偏好”和“验证信号”,显著优于其他方法。
Heimdall能发现证明过程中的逻辑漏洞,例如:
某步骤假设未经验证;
结论正确但推导错误(类似“蒙对答案但过程瞎写”)。
在合成数据集NuminaMath中,Heimdall发现近一半数据有缺陷(如题目无解或解法错误)。
这相当于帮公司省去了人工筛查海量数据的成本。
对空间推理类问题(如几何)表现较弱;
需要更多领域数据(如编程、物理)进一步训练。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦