从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench


从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的GSM8K、MATH数学基准因覆盖不足和易被数据污染饱受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。
为了填补这些空白,来自香港科技大学的研究团队近日发表在ICLR2025的最新研究UGMathBench——首个针对本科数学的多元化动态评测体系,专为评估LLM在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代,标志着LLMs数学推理评估从“浅层解题”迈向“深层理解”。
论文地址:https ://arxiv. org/pdf/2501. 13766
该基准测试已经与AGI-Eval大模型评测社区达成合作,可至社区查看UGMathBench的所有子集!
UGMathBench与现有基准的区别
1. 1数据集深度
数学推理对于评估LLM的基本推理能力越来越重要,随着现代LLM变得越来越强大,已有的基准测试对最新的LLM缺乏足够的挑战。在该领域现有数据集如GSM8K(小学)、MATH(竞赛),大多聚焦中小学或竞赛数学,已逐渐被LLM“攻克”,缺乏本科level的深度与广度。
UGMathBench包含更广泛的主题、答案类型和测试示例,还有几个跨模态数学相关的数据集,以填补本科数学评估的空白。与常用数学基准相比,UGMathBench被证明更具挑战性。例如,OpenAI-o1-mini在MATH上达到了94. 8%的准确率,相比之下在UGMathBench上只达到了56. 3%。大多数开源LLM(包括大多数专业的数学模型),在UGMathBench中都难以达到30%的EAcc。
1. 2测试集污染
由于预训练数据通常从网上抓取大型语料库,任何静态基准都有数据污染的“记忆风险”——模型可能通过训练数据接触过测试题。数学推理的基准测试数据出现在新模型的训练集中,通过人为夸大性能,严重挑战公平的LLM评估。
为了缓解这种情况,最近的基准测试有两种解决方案:
一是维护私有测试集,要求希望评估其模型的人在排行榜发布结果之前提交预测以供集中处理,但这个过程可能效率低下,并且缺乏错误分析的透明度。其二是发布定期更新的动态基准。UGMathBench就是一个动态基准测试,通过设置不同的随机种子来为变量提供不同的采样值。
总之,UGMathBench与其他数学基准的核心区别在于现有基准如GSM8K(小学)、MATH(竞赛)层次较低,为静态基准,有数据污染的风险;UGMathBench专注于本科数学推理,用动态随机化题目检测模型真实推理能力,其创新指标EAcc和Δ可有效衡量模型对变量扰动的真实推理能力,避免测试集污染。
UGMathBench的设计
UGMathBench的构建是从在线作业评分系统中精心收集、整理和格式化本科水平的数学问题,核心优势体现在其全面性与动态性。
2. 1核心亮点
超全学科覆盖:UGMathBench涵盖本科阶段数学的16个核心学科领域,包括单变量微积分、多变量微积分、微分方程、概率等,从而有111个细分主题及583个子主题,包含5062个问题。
答案类型多元:分为8种原子答案类型和2种复合答案类型,答案类型范围从原子类型(例如,数值、表达式)到复合类型(例如,有序或无序列表中的多个答案),使UGMathBench与许多其他主要关注具有原子类型的单个答案的数学相关基准区分开来。
动态评估体系:每个问题包括3个随机版本,未来计划随模型性能提升而增加版本数。通过变量扰动(如系数、边界条件变化)创建多版本试题,确保模型依靠推理,进而真正理解阶梯逻辑,而非依靠记忆生成答案。
2. 2关键指标
平均准确率(Acc):的准确率定义为模型在版本题集上的平均准确率,来评估该版本的平均性能。
鲁棒效率(RE):Δ与EAcc的比值,表示为RE=Δ/EAcc,反映推理差距的相对大小。
传统准确率(Acc)难以揭示模型在问题变体中的稳定性。UGMathBench引入两项创新指标:
平均准确率(AAcc):定义为所有Acc的平均值,
有效准确率(EAcc):衡量模型在所有随机化版本中均能正确解决问题的比例,量化真实推理。
公式:
若模型仅靠记忆特定数值,EAcc会显著低于单一版本准确率。
推理差距(Δ):计算平均准确率与有效准确率的差值。
公式:Δ=AAcc−EAcc,衡量模型在面对问题变体时的推理鲁棒性,用来评估推理的稳健性,Δ=0表示完美鲁棒性。
UGMathBench的评估

△UGMathBench上的主要结果(所有数字均以%为单位)。模型根据其用途和来源分为三类。每列中的最佳结果以粗体显示,类似参数大小组中开源ChatLLM的最佳结果以下划线显示。
3. 1推理的不稳定性
所有模型Δ>10%,鲁棒效率最高达196. 6%(DeepSeek-MOE-16B-Chat),当前模型对变量扰动敏感,在问题变体上的推理一致性不足。所有LLM在UGMathBench上都表现出极高的鲁棒效率,值从20. 78%到196. 6%不等。在鲁棒效率最低的5款车型中,其中3款来自OpenAI(OpenAI-o1-mini:20. 78%;GPT-4o:20. 89%;Mistral-Large-Instruct:24. 36%;Qwen2-Math-72B-Instruct:24. 39%;GPT-4o-mini:27. 87%)。这些结果指出了当前LLM的局限性,并敦促我们开发具有高有效准确率和Δ=0的“大型推理模型”。
3. 2闭源与开源差距
在经研究团队测试推出的榜单中,前5名有4个为闭源模型,OpenAI-o1-mini在平均准确率、i=1,2,3和有效准确率中取得了最佳结果,有效准确率仅为56. 3%,且Δ为11. 7%,表明其在约1/5的问题变体中出错。
开源模型中,Qwen2-Math-72B-Instruct表现最佳,有效准确率达到45. 85%,接近GPT-4o。然而,其仍与闭源模型存在显著差距,与OpenAI-o1-mini相比,它的平均准确率降低了10. 97%,有效准确率降低了10. 45%。此外,超过一半的开源模型(19个中的10个)的有效准确率小于20%。
3. 3学科表现分化
算数、代数等基础学科:LLM在算术问题方面很有效,有效准确率达到62. 8%,模型表现相对较好。在代数上达到了58. 3%。LLM还擅长组合学和复分析(超过30%的平均有效准确率)。
抽象代数、微分方程和金融数学:平均有效准确率不到10%,抽象代数仅约5%,凸显高阶概念推理的不足。这些领域需深度逻辑推导与领域知识整合,现有LLMs缺乏足够训练数据与结构化推理能力。
3. 4误差类型分析
计算错误:(如数值积分误差、矩阵运算错误)占比最高,反映模型在符号运算中的不稳定性。
推理不一致:同一问题的不同版本中,模型可能给出矛盾答案,其依赖表面特征而非深层逻辑。
UGMathBench是一个多样且动态的基准测试,它的发布旨在全面评估LLMs在本科生水平的数学推理能力,不仅提供了评估工具,还指明了研究方向。UGMathBench仅支持文本问题,当前的LLMs在这一领域仍有很大的改进空间。
UGMathBench未来预计开发多模态版本,支持多语言数学问题评估,以及更多学科的问题数量,以更贴近真实学术场景。开发“大型推理模型”,目标是实现高有效准确率(EAcc接近100%)和Δ→0的模型,探索模型自适应训练以缩小推理差距,提升推理稳定性。优化评估代码,结合更优的提示策略和模型架构改进,持续更新数据集以提升质量。
UGMathBench基准既是一面镜子,映照出当前AI的能力边界,更如一把钥匙,开启通往更具鲁棒性、可解释性AI的大门。
UGMathBench已开源评估代码和数据集,期待学界利用这一工具,推动LLMs从“文字游戏”走向“真正的数学理解”!
GitHub:https ://github. com/YangLabHKUST/UGMathBench
论文地址:https ://arxiv. org/pdf/2501. 13766
UGMathBench评测集地址:https ://agi-eval. cn/evaluation/detail?id=61
推荐阅读:
“AGI五年内或将实现”:AI教父Bengio呼吁中美达成共识,警惕AI沦为人类武器
强化学习之父RichardSutton:人类数据耗尽,AI正在进入“经验时代”!
辛顿、杨立昆等AI先驱都源自信号处理——对话IEEE首位华人主席、美国双院院士刘国瑞|万有引力
📢2025全球产品经理大会
2025年8月15–16日 
北京·威斯汀酒店
2025全球产品经理大会将汇聚互联网大厂、AI创业公司、ToB/ToC实战一线的产品人,围绕产品设计、用户体验、增长运营、智能落地等核心议题,展开12大专题分享,洞察趋势、拆解路径、对话未来。
更多详情与报名,请扫码下方二维码。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录