1.5B小模型+32B外援=28%准确提升+8倍提速？SplitReason实现推理过程“无缝接力”

发布日期: 2025-04-25

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

为什么需要让LLM学会“呼叫外援”？
大语言模型（如ChatGPT）虽然强大，但推理速度慢、算力消耗高。尤其是数学题、编程题等需要多步推理的任务，生成几千个token是家常便饭。这就像让一个博士生做小学数学题——虽然能做对，但时间和电费都让人心疼。
传统解决方案有两种：
全用小模型：速度快，但容易出错。
全用大模型：准确率高，但慢如蜗牛。
更尴尬的是，推理过程中并非每一步都难。比如解方程时，写“设未知数为x”很简单，但后续的复杂计算可能需要更高智商。于是论文提出：能不能让小模型处理简单步骤，遇到难题时自动呼叫大模型？
论文：SplitReason:LearningToOffloadReasoning链接：https ://arxiv.org/pdf/2504.16379
SplitReason的核心理念是动态分工：
小模型（1.5B参数）：负责80-95%的推理步骤，像实习生一样处理常规任务。
大模型（32B参数）：作为“外援专家”，仅在关键难点介入。
关键机制：
小模型生成过程中，如果遇到困难，会主动发出信号，相当于喊“这道题我不会了，大佬快来！”
大模型立刻接手，生成难点部分的答案，完成后用交回控制权。
两者的KV缓存（记忆模块）实时同步，实现无缝切换。
用超大模型（DeepSeek-R1671B）自动分析18万条数学题的推理过程，标注出20%最难的步骤，并打上标签。
相当于让学霸给练习题划重点：“这里容易卡壳，需要开挂。”
模仿学习（SFT）：让小模型学习标注数据，模仿何时该“求助”。
强化学习（GRPO）：进一步优化，奖励小模型“精准求助”——既不能乱喊救命，也不能硬撑到底。
准确率：相比纯小模型，AIME24数学题准确率提升28.3%。
速度：通过卸载5%的任务给大模型，整体推理速度比纯用大模型快5-8倍。
效率：大模型仅处理5%的token，却贡献了关键解题步骤。
更惊人的是，即使随机让大模型处理5%的步骤，准确率也能提升20%。而智能卸载（SplitReason）进一步优化了这一过程，实现“四两拨千斤”。
硬件友好：未来AI不仅要比谁更聪明，还要比谁更“省电”。
开源价值：论文公开了模型、数据集和代码，开发者可以直接复现或改进。
新范式：用强化学习让AI主动优化效率（RLAE），而不仅是模仿人类。
备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群
id：DLNLPer，记得备注呦