推测性思维链SCoT:小模型“模仿”大模型,最高提速2.9倍,准确率几乎不降


推测性思维链SCoT:小模型“模仿”大模型,最高提速2.9倍,准确率几乎不降

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

现在的大模型(比如论文提到的Deepseek-R1)虽然能解决复杂数学题,但有两个致命缺点:
体型庞大:动辄几百亿参数,像“超级计算机”一样耗资源;
思考过程长:解一道题要生成几千甚至上万字的思维链(Chain-of-Thought,CoT),相当于“把草稿纸写满才交卷”。
这就导致用大模型做题成本高、速度慢,用户体验像“等蜗牛爬完马拉松”。
论文:EfficientReasoningforLLMsthroughSpeculativeChain-of-Thought链接:https ://arxiv.org/pdf/2504.19095
过去科学家尝试两种方法提速:
减肥法:把大模型压缩成小模型(比如从300亿参数压到15亿),但小模型解题能力直线下降;
缩写法:让模型少写点“草稿”,直接给答案。但遇到难题时,草稿太短反而容易出错。
这两种方法像是“要么砍性能,要么赌运气”,都不是最优解。
这篇论文提出的SCoT(推测性思维链),核心思想像职场中的“高效团队”:
小模型当实习生:快速生成多个解题草稿(比如同时写5种解法);
大模型当老板:一键审核草稿,选中最好的直接交卷,发现全错就自己重写。
这样一来,简单题靠小模型速战速决,难题靠大模型兜底,既省时间又保质量。
要让小模型写出和大模型风格一致的“草稿”,论文做了两件事:
对齐思考行为:用大模型的解题过程当参考答案,训练小模型“抄作业”;
动态纠错机制:大模型审核时,如果所有草稿都错,就启动“老板亲自上阵”模式。
这里用到一个关键公式(原文公式2),训练小模型时让它最大化匹配大模型的输出概率:简单说,就是让小模型写的每一步草稿,都尽量接近大模型的习惯。
论文在5个数学数据集上测试SCoT,结果惊艳:
速度提升:最高提速2.9倍(比如原来需要225秒的题,现在77秒搞定);
准确率无损:复杂题(如奥赛级题目)的准确率只比大模型单独解题低1%~2%。
更厉害的是,SCoT甚至让最终答案更简洁(草稿质量高,大模型不用再啰嗦)!
SCoT的价值不仅是技术突破,更打开了新思路:
成本降低:小模型承担大部分工作,减少大模型调用次数;
灵活适配:根据题目难度动态分配资源,像“智能档位切换”;
开源代码:作者公开了代码,大家可以快速落地应用。
未来,这种“协作式推理”可能会成为AI产品的标配,让ChatGPT们既快又聪明!
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录