103K「硬核」题,让大模型突破数学推理瓶颈


103K「硬核」题,让大模型突破数学推理瓶颈

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

本文将介绍DeepMath-103K数据集。该工作由腾讯AILab与上海交通大学团队共同完成。
本文的通讯作者为涂兆鹏,腾讯混元数字人专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过10000次,担任SCI期刊NeuroComputing副主编,多次担任ACL、EMNLP、ICLR等国际顶级会议领域主席。共同通讯作者王瑞,上海交通大学副教授,研究方向为计算语言学。第一作者为上海交通大学博士生何志威,腾讯AILab高级研究员梁添、徐嘉豪。
在AGI的浩瀚征途中,数学推理能力始终是衡量其智能水平的关键试金石。然而,当前大语言模型(LLM)在数学推理,特别是通过强化学习(RL)进行训练时,正面临着前所未有的数据瓶颈:现有数据集普遍缺乏挑战性和新颖性、答案难以验证,且常与评估基准存在“污染”问题。
为了解决以上问题,DeepMath-103K数据集横空出世,它以其大规模、高难度、严格去污染和可验证答案的特性,为AI数学推理领域带来进一步突破。

论文地址:https ://arxiv. org/pdf/2504. 11456
数据地址:https ://hf. co/datasets/zwhe99/DeepMath-103K
模型地址:https ://hf. co/collections/zwhe99/deepmath-6816e139b7f467f21a459a9a
代码地址:https ://github. com/zwhe99/DeepMath
痛点:现有数据集为何“拖后腿”?
想象一下,你正在训练一个AI数学家,但它手里的“习题集”却有诸多缺陷:
难度不够:题目过于简单,无法真正挑战模型的推理极限。
答案难验:缺乏标准化、可验证的答案格式,让强化学习的奖励机制无从下手。
数据污染:训练数据与测试基准存在重叠,无法真实反映能力。
缺乏新意:大多是对现有资源的简单重组,新颖性和多样性严重不足。
这些问题,就像给AI数学家戴上了“镣铐”,即使模型架构再先进,也难以施展拳脚,更别提实现真正的“深度思考”和泛化能力。
DeepMath-103K:AI数学推理的“硬核”解决方案
为了打破这些桎梏,DeepMath-103K应运而生。它是一个包含约103,022个数学问题的全新大规模数据集,专为通过强化学习训练高级推理模型而设计。
1. 规模与难度:专为“极限挑战”而生
DeepMath-103K的显著特点是其高难度。其中95K个问题被精心构造为难度等级5-10,另有8K个来自SimpleRL的问题(难度等级3-5)以确保更广泛的难度覆盖。这种难度分布明显偏向高难度,旨在推动当前模型的推理极限,与现有其它数据集形成鲜明对比。
2. 数据新颖性:告别“千篇一律”
与许多现有开放数据集不同,DeepMath-103K主要从MathStackExchange等更多样化但结构性较差的来源获取内容。这种方法将非正式讨论转化为结构化问答,带来了显著的新颖性和多样性。
在涵盖的主题上,DeepMath-103K包含了从基础概念(如初等代数、平面几何)到高级主题(如抽象代数、微积分、数论、几何、概率、离散数学等)的广泛数学领域。这种分层且全面的主题覆盖,确保了模型能够接触到不同复杂度、不同类型的数学问题,从而促进在不同数学领域中通用推理能力的发展。
对数据集内容的深入分析表明,DeepMath-103K在问题新颖性和独特性方面表现出压倒性优势。在对数据集的问题进行嵌入化,降维,可视化后,我们惊人地发现大多数数据集的问题分布极其雷同(蓝色点簇)。而DeepMath-103K的问题(红色点簇)则在空间中形成了一个与众不同的分布。
进一步地,在总计约103K个问题中,高达82. 81K个问题是独一无二的,这意味着它们在其它数据集中从未出现过。
这直观地表明,DeepMath-103K的问题集合在语义和结构上与现有数据集存在显著差异,避免了“炒冷饭”的问题,为模型提供了真正新颖的训练样本。
3. 严格去污染:确保评估“纯净”
DeepMath-103K的构建过程堪称“匠心独运”,通过一个细致的四阶段构造流程:
1. 来源分析与收集:分析现有数据来源,选择难题比例高的数据源。

3. 难度过滤:使用GPT-4o对问题进行难度评估,保留难度等级5或更高的问题。
4. 答案验证:采用两阶段流程,确保所有解决方案路径中的最终答案一致且可验证。
这个过程的计算成本极其高昂:约138,000美元的费用和127,000小时的H20GPU时间。这足以证明其在数据质量和纯净度上的巨大投入。
4. 独特结构:为RL训练“量身定制”
DeepMath-103K中的每条数据都包含丰富的信息,支持多种数学推理研究和应用:
问题:核心的数学问题陈述。
最终答案:可靠且可验证的最终答案,这对于在可验证奖励强化学习(RLVR)中基于规则的奖励函数至关重要,是自动化评估和反馈的基础。
难度:数值难度标注,支持难度感知训练。
主题:分层主题分类,涵盖从初等代数到抽象代数、微积分的广泛数学主题。
R1解决方案:由DeepSeek-R1模型生成的三种不同的推理路径。这些多重解决方案对于监督微调和模型蒸馏等多种训练范式都具有巨大价值。
DeepMath系列模型在多个基准上达到SOTA

可泛化的推理:从数学到科学的飞跃
DeepMath系列模型展示了将其推理能力从纯数学领域泛化到更广泛的科学领域的显著能力。与基线模型相比,它们在涵盖生物学、物理学和化学的GPQA-Diamond基准上取得了卓越的性能。这支持了强大的数学推理并非孤立技能,而是一种基础性认知能力,支撑着更广泛的科学和逻辑理解的假设。
结语
DeepMath-103K的发布,无疑为人工智能数学推理领域形成了新的突破。它不仅解决了数据瓶颈问题,更通过其独特的设计和卓越的性能,证明了精心构造的高质量训练数据在推动AI前沿方面的深远价值。我们期待,在DeepMath-103K的推动下,AI能够真正学会“深度思考”,从数学的逻辑殿堂走向更广阔的科学探索,最终迈向更强大、更具通用性、认知上更复杂的智能系统!
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录