数学推理热潮下的冷思考！如何训练真正'全能'的推理模型？

发布日期: 2025-07-07

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大型语言模型（LLM）在数学推理任务上的突破令人瞩目——MATH、AIME等基准的人类记录频频被打破，模型仿佛拥有了\“数学天才\“的光环。但这种进步是真实的能力跃迁，还是针对数学题的过度拟合？
论文：DoesMathReasoningImproveGeneralLLMCapabilities?UnderstandingTransferabilityofLLMReasoning
链接：https ://arxiv. org/pdf/2507. 00432
这篇论文撕开了表象：研究者评估了20余个开源推理模型在数学、科学问答、编程、规划等领域的表现，发现多数模型在数学上的成功无法迁移到其他领域。更关键的是，通过严格的对照实验，团队揭示了微调方法的选择（强化学习RLvs监督微调SFT）是决定能力泛化的核心钥匙。这一发现不仅挑战了依赖SFT蒸馏数据的行业常规，更为构建\“通用推理智能体\“提供了新路径。
跨领域性能断层论文评估了模型在三类任务上的表现：
数学推理（如MATH500、奥赛题）
其他推理（如医疗诊断GPQA、编程LiveCodeBench）
非推理任务（如对话CoQA、指令遵循IFEval）
实验揭示惊人分裂：多数SFT模型在数学任务上表现出色（如MATH500准确率85%），但在非推理任务上性能暴跌至接近随机水平（如CoQA准确率仅1. 7%）。而RL模型则能保持均衡提升。
迁移指数（TI）：量化泛化能力为量化迁移效果，论文提出迁移指数（TransferabilityIndex,TI）：
分子（）：模型相对基础模型在目标领域的平均提升率
分母：数学领域的提升率（作为能力增益基准）TI>0表示正向迁移，TI<0意味着数学训练反而损害其他能力。
RLvsSFT的泛化鸿沟
RL模型：仅用数学数据训练，却在编程（LiveCodeBench提升17. 1%）、对话（CoQA提升22. 9%）等任务同步进步
SFT模型：数学能力提升越大，非推理任务退化越严重（如TI_non=-250. 2%）
SFT像\“填鸭式补习\“——过度专注数学技巧却遗忘基础能力；RL更像\“思维健身\“——通过奖励机制强化核心推理逻辑。
潜在空间漂移：知识结构的变形研究者用主成分分析（PCA）探测模型内部表示的变化：
提取各层隐藏状态，投影到二维PCA空间
计算微调前后表示中心的欧氏距离发现：
SFT导致大幅表示漂移（如非推理任务=129. 8）
RL的表示变化轻微（同任务=36. 9）
Token分布偏移：语言习惯的\“污染\“通过KL散度和Token秩移分析输出分布：
KL散度：SFT模型的分布偏移显著（如IFEval任务KL=0. 283），RL模型接近基础模型（KL=0. 019）
秩移：SFT平均秩移10. 6（表示高频词剧烈变化），RL仅0. 98
案例：过度推理的灾难在非推理任务（如写辞职邮件）中：
\“用户要求先复述请求…但复述是否包含角括号？是否需要分段？…\“
核心机制：SFT的模仿学习导致\“数学思维惯性\“，强行在简单任务中套用复杂推理步骤。
实验设计
统一基础模型：Qwen3-14B-Base
统一数据：47K高质量数学题（来自MATH+DeepSeal）
对比组：
SFT组：学习教师模型（Qwen3-32B）的推理链
RL组：仅用答案正确性作为奖励信号（GRPO算法）
结果：RL的全域统治力
数学任务：RL仍小幅领先（AIME24:55. 7%vsSFT52. 0%）
其他推理：RL在编程任务碾压SFT（LiveCodeBench:40. 6%vs23. 5%）
非推理任务：RL恢复基础模型能力（CoQA:28. 2%），SFT则崩溃（1. 7%）
反直觉结论：纯数学训练的RL模型，在非数学任务表现甚至超过多领域混合训练的SFT模型。
这项研究打破了\“数学能力=通用智能\“的迷思，揭示了微调方法对能力迁移的决定性作用。通过严谨的控制实验和创新的表示分析，团队证明：强化学习能像\“针灸\“般精准激活数学推理能力而不扰动通用表示，而监督微调则像\“外科手术\“——切除旧知识换取新技能。这一发现为构建不\“偏科\“的AI系统指明方向：放弃对数学排行榜的盲目追逐，转向更平衡的优化范式。未来，融合RL的泛化优势与SFT的高效性，或将成为通用推理模型的黄金标准。