大模型推理上限再突破:「自适应难易度蒸馏」超越R1蒸馏,长CoT语料质量飞升
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
本文作者均来自中兴通讯无线研究院「大模型深潜」团队。团队重点攻关方向包括「推理模型构建:蒸馏与强化学习方法」、「无线通信故障定位与根因分析推理模型」、「多模态推理模型」和「推理加速技术」。核心成员毕业于中国科学技术大学、中国科学院软件研究所等知名高校与科研院所。
近年来,「思维链(ChainofThought,CoT)」成为大模型推理的显学,但要让小模型也拥有长链推理能力却非易事。
中兴通讯无线研究院「大模型深潜团队」从「数据静态经验流」的角度切入,首创「LLM自适应题目难度蒸馏」方法,一举将高质量CoT语料的生产效率与效果同步拉满。
论文链接:https ://arxiv.org/pdf/2504.11919
开源链接如下:
代码数据:https ://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveCode_data
数学数据:https ://huggingface.co/datasets/ZTE-AIM/32B_LLM_AdaptiveMath_data
代码模型:https ://huggingface.co/ZTE-AIM/LLM-Adaptive-ZCode-model-32B
数学模型:https ://huggingface.co/ZTE-AIM/LLM-Adaptive-ZMath-model-32B
研究动机:小模型也想有「长链思考」
大模型优势鲜明,部署困难
随着DeepSeek-R1(671B参数)模型的发布,长思维链(CoT)推理技术在基础大模型和工业应用中快速普及。DeepSeek-R1虽然推理能力强大,但600+B参数量的模型难以在边缘设备、实时系统中使用。
小模型亟待「加持」
这促使业界对参数量低于70亿的小型模型开展持续研究,尤其聚焦在复杂数学解题和代码生成等长链推理场景。值得注意的是,借助DeepSeek-R1的推理过程,可构建高质量的思维链(CoT)数据,从而显著增强小模型的推理能力。但目前几十亿到百亿参数级别的小模型,在多步骤推理任务(如复杂数学问题和编程题)上仍存在明显瓶颈,难以充分满足此类应用需求。
现有CoT数据的困局
基于DeepSeek-R1生成CoT数据的研究大体分为两条技术路线:
1.海量数据驱动(Labs2025;Team2025c):通过堆叠超大规模CoT语料来提升推理能力,但计算与标注成本高、效率低。
2.精品数据驱动(Yeetal.2025;Muennighoffetal.2025):依靠少量高质量样本激活模型潜能,然而受规模限制,性能增益难以持续。
尽管已有工作(Wenetal.2025a)引入课程学习和拒绝采样以优化训练流程,上述方法普遍忽视了「模型能力—数据难度」之间的动态匹配。
这直接引出了两个核心问题:
1、高质量CoT语料应如何定义?
2、如何从既有数据中提炼可迁移的「静态经验流」?
全新方法:模型自适应难度分级蒸馏
近期,强化学习之父RichardSutton提出「经验」是下一代超级数据源的思想,将大模型强化学习的本质定义为是一种数据的动态经验流挖掘。基于此,我们团队从数据静态经验流建设的角度出发,提出基于模型自适应问题难易度蒸馏CoT语料的方法,显著提升了长CoT语料的质量。
该方法围绕「模型-数据动态匹配」提出了一条完整的CoT构建流程,具有四大创新点:
1.基于模型的固有推理能力,建立题目难度分级体系,形成可复用的「静态经验」。
2.依照难度标签,构建覆盖全梯度的自适应题库。
3.设计符合课程学习思想的难度分布采样策略,确保训练数据与模型能力实时对齐。
4.借助DeepSeek-R1,在数学推理与代码生成两大场景批量生成高质量CoT语料。
在相同计算预算下,该自适应方案可持续提升不同规模模型的推理性能——以AIME24数学竞赛数据集为例,各参数档模型的准确率相比传统「非适配」策略提高6.66%–26.7%(见图1)。
图1:基于LLM自适应题目难度分级的CoT数据构建效果对比
对于不同参数规模的LLM,采用问题自适应难度分级方法构造的COT数据训练的推理模型(左)在数学竞赛数据集AIME24上的推理性能始终优于非自适应方法(右)。说明了前者构建的CoT数据质量更高,并且找到了适配于模型的静态数据经验流。
这一方法有效地挖掘了CoT数据中的静态经验流,并且该静态经验流与模型本身是密切相关的。
方法框架,一图看懂
图2:基于LLM自适应题目难度分级的CoT数据生成框架
框架包含三个核心组件:分布构建、LLM自适应题目难度分级与分布采样,以及LLM自适应思维链(CoT)生成。
1.分布构建(DistributionConstruction)
构建两种难度分布策略,作为后续采样的依据:
Option1:基于模型实际表现的分布(Pₑᵥₐₗ)
通过基础LLM(Sₗₗₘ)在评估数据集(DBₑᵥₐₗ)上的表现动态生成难度分布:
正确回答的题目:标记为「简单」(Easy)。
错误回答的题目:通过PRM-Grader(过程奖励模型)进一步分级,根据模型生成答案的推理轨迹质量(0-1分)映射到5个难度等级(分数越低,难度越高)。
Option2:基于课程学习的先验分布(P₆)
人工定义五级难度,遵循「易题多、难题少」的分布原则,权重随难度递增递减:
例如,难度级别1的样本数最多,级别5最少。
2.LLM自适应题目难度分级与分布采样
步骤1:构建自适应题库(DBₐdₐₚₜᵢᵥₑ)
从开源数据集收集原始题目(DBᵣₐw),利用Sₗₗₘ生成回答并记录推理轨迹。
验证答案正确性:
数学推理任务:直接对比模型答案与标准答案。
代码生成任务:通过测试用例执行验证代码正确性。
难度分级:
正确题目标记为「简单」,加入题库。
错误题目通过PRM-Grader细分为5级难度(1-5级,1级最难),加入题库。
步骤2:分布采样(DBₛₐₘₚₗₑ)
根据构建的分布(Pₑᵥₐₗ或P₆),从自适应题库中按难度比例采样题目
3.LLM自适应CoT生成
生成阶段:将采样题目(DBₛₐₘₚₗₑ)输入教师模型(Tₗₗₘ,即DeepSeek-R1)生成详细推理链(CoT)。
验证阶段:通过Result-Verifier严格筛选正确CoT数据(与步骤2的验证方法一致),最终形成高质量数据集COTₐdₐₚₜᵢᵥₑ。
模型训练:利用COTₐdₐₚₜᵢᵥₑ对基础模型(Sₗₗₘ)进行监督微调(SFT),得到优化后的推理模型(Rₗₗₘ)。
方法的关键创新点:
模型自适应难度适配:基于模型实际能力调整题目难度分布,避免「一刀切」的主观分级,构建真正与模型密切绑定的静态数据经验流;
轻量化流程:无需复杂课程学习或拒绝采样,仅通过分级与采样即可提升数据质量;
多任务兼容性:支持数学推理与代码生成任务,验证方法灵活(答案对比/测试用例)。
实验效果:惊喜不断
为了研究我们提出的CoT数据的质量效果,我们在不同尺寸和性质的模型上均进行了详细的验证,涵盖的任务包括数学推理任务和代码生成任务。
以下是重要实验结果的详细介绍:
数学推理(MATH500、AIME24/25、GPQA)
在MATH500、AIME24/25、GPQA等数学基准测试中,采用2k自适应CoT数据训练的ZMath系列模型显著优于基线模型。
ZMath-14B在AIME24上准确率为50%,远超phi4-14B(30%),并在GPQA上达到63.13%(phi4-14B为54.55%)。
图3:数学推理实验结果
代码生成(LiveCodeBench)
ZCode-14B在Easy难度上以89.96%显著领先phi4-14B(72.4%),表明小参数模型通过自适应数据训练也能取得竞争力表现。
图4:代码生成实验结果
消融实验&分布迁移
当把32B模型的难度分布直接套用到7B模型时,后者在MATH500数据集上的准确率仅为92%,低于采用自身难度分布训练得到的93.2%。结果说明:难度分布必须与目标模型能力动态匹配,自适应分布才是性能提升的关键;同时也表明,静态经验流中真正有价值的经验应当与具体模型紧密对应,而非「一刀切」地跨模型迁移。
图5:代码生成实验结果
总结与展望
论文提出了一套基于LLM自适应难度分级的高质量CoT数据生成框架,并通过系统实验验证了其效率、有效性与泛化能力。核心结论如下:
高效数据生成
先动态评估模型当前推理能力,再构建匹配的自适应题库,仅凭约2k条高质量CoT样本即可显著提升性能,显著降低数据与算力成本。
跨任务与参数泛化
在数学推理(AIME系列)与代码生成(LiveCodeBench)两大场景中均取得领先表现;对7B–32B不同规模模型均能带来稳定增益。
方法论贡献
构建了一套系统化的CoT数据生成与评估流程,为资源受限环境下的小参数LLM提升链式推理能力提供了新路径,也为「静态经验流」挖掘给出了可复用范式。
未来工作:进一步结合强化学习挖掘深层推理能力,并扩展至通信故障诊断等更复杂的跨领域任务。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com