推测性思维链SCoT：小模型“模仿”大模型，最高提速2.9倍，准确率几乎不降

发布日期: 2025-04-29

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

现在的大模型（比如论文提到的Deepseek-R1）虽然能解决复杂数学题，但有两个致命缺点：
体型庞大：动辄几百亿参数，像“超级计算机”一样耗资源；
思考过程长：解一道题要生成几千甚至上万字的思维链（Chain-of-Thought,CoT），相当于“把草稿纸写满才交卷”。
这就导致用大模型做题成本高、速度慢，用户体验像“等蜗牛爬完马拉松”。
论文：EfficientReasoningforLLMsthroughSpeculativeChain-of-Thought链接：https ://arxiv.org/pdf/2504.19095
过去科学家尝试两种方法提速：
减肥法：把大模型压缩成小模型（比如从300亿参数压到15亿），但小模型解题能力直线下降；
缩写法：让模型少写点“草稿”，直接给答案。但遇到难题时，草稿太短反而容易出错。
这两种方法像是“要么砍性能，要么赌运气”，都不是最优解。
这篇论文提出的SCoT（推测性思维链），核心思想像职场中的“高效团队”：
小模型当实习生：快速生成多个解题草稿（比如同时写5种解法）；
大模型当老板：一键审核草稿，选中最好的直接交卷，发现全错就自己重写。
这样一来，简单题靠小模型速战速决，难题靠大模型兜底，既省时间又保质量。
要让小模型写出和大模型风格一致的“草稿”，论文做了两件事：
对齐思考行为：用大模型的解题过程当参考答案，训练小模型“抄作业”；
动态纠错机制：大模型审核时，如果所有草稿都错，就启动“老板亲自上阵”模式。
这里用到一个关键公式（原文公式2），训练小模型时让它最大化匹配大模型的输出概率：简单说，就是让小模型写的每一步草稿，都尽量接近大模型的习惯。
论文在5个数学数据集上测试SCoT，结果惊艳：
速度提升：最高提速2.9倍（比如原来需要225秒的题，现在77秒搞定）；
准确率无损：复杂题（如奥赛级题目）的准确率只比大模型单独解题低1%~2%。
更厉害的是，SCoT甚至让最终答案更简洁（草稿质量高，大模型不用再啰嗦）！
SCoT的价值不仅是技术突破，更打开了新思路：
成本降低：小模型承担大部分工作，减少大模型调用次数；
灵活适配：根据题目难度动态分配资源，像“智能档位切换”；
开源代码：作者公开了代码，大家可以快速落地应用。
未来，这种“协作式推理”可能会成为AI产品的标配，让ChatGPT们既快又聪明！
备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群
id：DLNLPer，记得备注呦