OlymMATH: 奥林匹克级双语数学基准,R1 正确率仅为 21.2%
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
©作者|孙浩翔
机构|中国人民大学
研究方向|自然语言处理
当前数学基准难以有效区分先进大模型的真实推理能力。为此,我们提出OlymMATH——一个奥林匹克级数学基准,包含200道高质量问题,并提供中英双语版本。OlymMATH分为easy和hard两个难度级别,其中easy子集的难度与AIME(美国数学邀请赛)对齐,hard子集则聚焦于更复杂的推理能力。实验表明,即使是最先进的模型,如DeepSeek-R1和o3-mini,在英文版hard数据集上的正确率仅为21.2%和30.3%。
论文题目:ChallengingtheBoundariesofReasoning:AnOlympiad-LevelMathBenchmarkforLargeLanguageModels
论文链接:https ://arxiv.org/abs/2503.21380
代码仓库:https ://github.com/RUCAIBox/OlymMATH
数据集:https ://huggingface.co/datasets/RUC-AIBOX/OlymMATH
近年来,大型语言模型(LLMs)在数学推理任务上取得了显著进展。例如,OpenAI的o3-mini、DeepSeek-R1和QwQ等模型已展现出卓越的数学解题能力。然而,现有数学基准(如MATH和AIME)已不足以细粒度地区分最先进模型的能力差异,且其测试结果正逐步趋于饱和。此外,大多数现有基准仅提供英文数据,缺乏对LLMs在多语言环境下的系统性评估。
为此,我们提出OlymMATH,一个全新的奥林匹克级数学基准,旨在全面评估大模型的推理能力。与从网络爬取数据构建的基准不同,OlymMATH依托高质量印刷资料(如数学竞赛杂志、教材及官方竞赛题库)精心筛选问题,以确保题目的原创性、挑战性和多样性。该基准涵盖200道高质量数学题,分为简单和困难两个子集,并提供完全平行的中英双语版本,以支持严格的多语言评估。这使得OlymMATH能够揭示语言对LLM数学推理能力的影响,并为未来研究提供更具深度的测评框架。
OlymMATH的构建过程涉及以下关键环节:
数据筛选:从印刷资料中精选200道奥林匹克级数学题,避免使用在线资源,以最大程度降低数据污染风险。
题目分类与难度分级:OlymMATH覆盖代数、几何、数论和组合数学四大数学领域,并按难度分为简单(EASY)和困难(HARD)两级。其中,EASY级别与AIME竞赛题目难度相当,而HARD级别则测试模型的深度推理能力。
格式标准化与答案验证:OlymMATH采用与MATH数据集相同的格式,以便于评估。此外,我们严格限定答案格式,仅包含实数和区间,排除难以验证的集合操作或符号表达式,确保评测的客观性。对于多个可能解的题目,我们对问题进行了改写,以要求模型解出所有可能的正确答案,从而考察其全面推理能力。
双语扩展:OlymMATH包含完全对等的中英文问题集。英语版本采用LLM+人工审核的高质量翻译流程:首先由ClaudeSonnet3.7生成初步英文翻译,随后使用GPT-4o进行多轮优化,最后由专家审核,确保英语版本的可靠性。
🚀我们的实验表明:
OlymMATH比现有数学基准更具挑战性。例如,即使是顶尖模型OpenAIo3-mini(high),在OlymMATH-EN-HARD上的准确率也仅为30.3%,而其他模型在MATH-500和AIME2024等现有基准上的准确率通常在70%-90%之间。
OlymMATH能更好区分模型能力。在MATH-500上,DeepSeek-R1和Qwen2.5-32B-R1D的准确率非常接近(97.3%vs94.3%),但在OlymMATH-EN-HARD上,两者的准确率分别下降至21.2%和13.6%,表明OlymMATH在区分不同模型的推理能力方面更具优势。
语言对推理能力有显著影响。所有模型在英文基准上的表现均优于中文基准,这一现象表明语言对LLM数学推理能力可能存在显著影响,进一步强调了多语言评估的重要性。
同时我们进行了对DeepSeek-R1的思维链长度的分析。实验结果表明,从思维链长度的分布来看,OlymMATH-EASY与AIME具有类似的难度,而OlymMATH-HARD则包含更多的挑战性题目。
🌟我们的研究还揭示了一个重要发现:模型“猜测式解题”现象。
在数据收集与实验中,我们观察到一个值得注意的现象:大模型有时会采用“猜测”策略而非严格的数学推理。具体来说,对于某些数学问题,模型可能通过模式匹配、猜测取等、命题简化甚至编造来得出正确答案,而非系统性推导。例如,在解决几何优化问题时,o3-mini仅凭“对称性”猜测b=c为最优解,缺乏必要的推理严谨性。这种现象在使用LLM-as-judge方法时会带来问题,因为大模型自我评估时难以有效验证推理的严谨性。这意味着,模型的答案准确率提高可能部分源于这种“捷径”解法,而非真正的推理能力提升。
下面的例子来自Omni-MATH。这种问题在主流数学基准中均有出现(请见原论文)。
但是,当面对OlymMATH-HARD中的问题时,这些猜测策略往往失效。在一个复杂优化问题中,o3-mini(high)错误假设对称性并给出答案3081,而正确答案(通过Mathematica验证)是2625。OlymMATH-HARD中的测试样本比现有基准更具挑战性,中间推理步骤难以通过经验猜测“破解”。
同时,这一发现强调了过程级监督或评估的重要性,尽管这在实践中目前难以扩展。我们目前尚无方法去准确测量这些基准中经验猜测的比例,这是未来工作的重要方向。
HaoxiangSun,YingqianMin,ZhipengChen,WayneXinZhao,ZhengLiu,ZhongyuanWang,LeiFang,Ji-RongWen.
北京智源人工智能研究院
DataCanvasAlayaNeW
进技术交流群请添加AINLP小助手微信(id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区,专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。