仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
大型语言模型(LLM)在数学推理任务上的突破令人瞩目——MATH、AIME等基准的人类记录频频被打破,模型仿佛拥有了\“数学天才\“的光环。但这种进步是真实的能力跃迁,还是针对数学题的过度拟合?
论文:DoesMathReasoningImproveGeneralLLMCapabilities?UnderstandingTransferabilityofLLMReasoning
链接:https ://arxiv. org/pdf/2507. 00432
这篇论文撕开了表象:研究者评估了20余个开源推理模型在数学、科学问答、编程、规划等领域的表现,发现多数模型在数学上的成功无法迁移到其他领域。更关键的是,通过严格的对照实验,团队揭示了微调方法的选择(强化学习RLvs监督微调SFT)是决定能力泛化的核心钥匙。这一发现不仅挑战了依赖SFT蒸馏数据的行业常规,更为构建\“通用推理智能体\“提供了新路径。
跨领域性能断层论文评估了模型在三类任务上的表现:
数学推理(如MATH500、奥赛题)
其他推理(如医疗诊断GPQA、编程LiveCodeBench)
非推理任务(如对话CoQA、指令遵循IFEval)
实验揭示惊人分裂:多数SFT模型在数学任务上表现出色(如MATH500准确率85%),但在非推理任务上性能暴跌至接近随机水平(如CoQA准确率仅1. 7%)。而RL模型则能保持均衡提升。
迁移指数(TI):量化泛化能力为量化迁移效果,论文提出迁移指数(TransferabilityIndex,TI):
分子():模型相对基础模型在目标领域的平均提升率
分母:数学领域的提升率(作为能力增益基准)TI>0表示正向迁移,TI<0意味着数学训练反而损害其他能力。
RLvsSFT的泛化鸿沟
RL模型:仅用数学数据训练,却在编程(LiveCodeBench提升17. 1%)、对话(CoQA提升22. 9%)等任务同步进步
SFT模型:数学能力提升越大,非推理任务退化越严重(如TI_non=-250. 2%)
SFT像\“填鸭式补习\“——过度专注数学技巧却遗忘基础能力;RL更像\“思维健身\“——通过奖励机制强化核心推理逻辑。
潜在空间漂移:知识结构的变形研究者用主成分分析(PCA)探测模型内部表示的变化:
提取各层隐藏状态,投影到二维PCA空间
计算微调前后表示中心的欧氏距离发现:
SFT导致大幅表示漂移(如非推理任务=129. 8)
RL的表示变化轻微(同任务=36. 9)
Token分布偏移:语言习惯的\“污染\“通过KL散度和Token秩移分析输出分布:
KL散度:SFT模型的分布偏移显著(如IFEval任务KL=0. 283),RL模型接近基础模型(KL=0. 019)
秩移:SFT平均秩移10. 6(表示高频词剧烈变化),RL仅0. 98
案例:过度推理的灾难在非推理任务(如写辞职邮件)中:
\“用户要求先复述请求…但复述是否包含角括号?是否需要分段?…\“
核心机制:SFT的模仿学习导致\“数学思维惯性\“,强行在简单任务中套用复杂推理步骤。
实验设计
统一基础模型:Qwen3-14B-Base
统一数据:47K高质量数学题(来自MATH+DeepSeal)
对比组:
SFT组:学习教师模型(Qwen3-32B)的推理链
RL组:仅用答案正确性作为奖励信号(GRPO算法)
结果:RL的全域统治力
数学任务:RL仍小幅领先(AIME24:55. 7%vsSFT52. 0%)
其他推理:RL在编程任务碾压SFT(LiveCodeBench:40. 6%vs23. 5%)
非推理任务:RL恢复基础模型能力(CoQA:28. 2%),SFT则崩溃(1. 7%)
反直觉结论:纯数学训练的RL模型,在非数学任务表现甚至超过多领域混合训练的SFT模型。
这项研究打破了\“数学能力=通用智能\“的迷思,揭示了微调方法对能力迁移的决定性作用。通过严谨的控制实验和创新的表示分析,团队证明:强化学习能像\“针灸\“般精准激活数学推理能力而不扰动通用表示,而监督微调则像\“外科手术\“——切除旧知识换取新技能。这一发现为构建不\“偏科\“的AI系统指明方向:放弃对数学排行榜的盲目追逐,转向更平衡的优化范式。未来,融合RL的泛化优势与SFT的高效性,或将成为通用推理模型的黄金标准。