不一样的推测解码!大LLM带小LLM,出奇的好,还有意外收获


不一样的推测解码!大LLM带小LLM,出奇的好,还有意外收获

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

小模型,为什么需要大模型“带飞”?

小模型(如1.5B参数)虽然轻量、省电,但遇到复杂数学题或逻辑推理时容易“卡壳”——要么答案错误,要么啰嗦半天还绕不出去。传统解决方案需要大量数据和算力重新训练模型,成本极高。显示,小模型在数学题上的准确率仅为83.2%,而输出长度却是大模型的近两倍!
就像小学生做奥数题,自己琢磨容易走偏,但如果有老师偶尔点拨关键步骤,效果立竿见影。
研究者发现,模型在推理时会频繁出现“\n\n”符号(类似段落分隔符),紧接着常伴随“等等,这里有问题?”(如“wait”“alternatively”)等反思性词汇。显示,超过80%的反思词汇紧跟在“\n\n”之后,说明这是模型“自我怀疑”的信号点。
就像人解题时写一段停一下,画个分隔线,然后嘀咕“刚才那步对吗?”这时候最需要外部指导。
SpeculativeThinking的核心是:小模型主攻常规步骤,大模型专治“选择困难症”。具体通过三种机制实现:
反思接管:小模型遇到“\n\n+反思词”时,大模型接手生成下一步;
验证接管:小模型说“我再检查一下”,大模型直接代劳;
防死循环:小模型反复纠结超3次,大模型强行介入破局。
展示了这一动态协作流程。
仅需替换约20%的关键片段,就能大幅提升性能,像给汽车换了个涡轮增压器。
实验结果堪称“逆天改命”:
1.5B小模型在MATH500数据集上准确率从83.2%→89.4%(+6.2%),输出长度减少15.7%;
连非推理专用模型(如7B-Instruct)也能蹭到红利,准确率提升7.8%。
显示,大模型介入后,小模型的“废话量”明显减少,尤其错误答案的冗长度大幅降低。
更神奇的是,这套方法对非推理专用模型也有效!例如,Qwen-7B-Instruct本身不擅长数学,但通过大模型指导,其MATH500准确率从74%→81.8%。显示,这种提升虽伴随输出变长,但性价比极高。就像被学霸附体,虽然解题步骤变多,但正确率飙升!
传统SpeculativeDecoding只加速生成(如小模型写草稿,大模型改错字),而SpeculativeThinking直接干预推理逻辑。对比显示,前者可能因“草稿太差”频繁返工,后者则精准切入关键卡点,效率更高。
依赖大模型能力:如果“导师”不够强,效果打折扣;
同家族限制:目前仅支持同系列模型协作(如Qwen家族);
提示词敏感:指令如“请逐步推理”对效果影响显著。
这项技术让“小模型+大模型”组合成为可能:日常任务用小模型省成本,关键时刻调用大模型保质量。未来或应用于教育助手、代码调试等场景,实现低成本高智能的普惠AI。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录