无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%


无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

近期,当很多人还在纠结用什么label和reward训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学MAPLE实验室另辟蹊径:既然LLM在复杂指令上表现不佳,需要引入单独的SFT或者RL过程,那为什么不让模型在推理时「临时学习」一下这个具体的问题呢?这个看似「离谱」的想法,竟然带来了惊人的效果提升。
试想一下,如果你参加考试时,可以在答题前花几秒钟「适应」一下这道具体的题目,你的表现会不会更好?

更令人惊讶的是,这个方法简单到离谱:
只需要优化一个轻量级参数向量delta(仅修改最后一层特征)
只需要几步(比如3步)梯度下降
计算开销几乎可以忽略不计(仅增加7. 9%推理时间)
完全即插即用,无需修改原模型
论文标题:SLOT:Sample-specificLanguageModelOptimizationatTest-time
论文地址:https ://arxiv. org/pdf/2505. 12392
GitHub地址:https ://github. com/maple-research-lab/SLOT
效果炸裂
多项基准测试刷新纪录
即便拿最有挑战性的高性能基线做比较对象,实验结果令人瞩目(所有log都在开源github里):
Qwen2. 5-7B在GSM8K数学推理任务上准确率从57. 54%飙升至66. 19%,提升8. 65个百分点。
DeepSeek-R1-Distill-Llama-70B在GPQADiamond上达到68. 69%,创下70B级别开源模型新纪录
在高难度的AIME2024数学竞赛题上,多个模型实现10%以上的提升
核心创新
把Prompt当作「测试时训练样本」
传统的LLM在面对复杂或特殊格式的指令时经常「翻车」,它可能会忽略格式要求或给出错误答案。
SLOT的解决方案优雅而简单:针对单独一个问题,直接在最后一层特征上加一个delta向量,并在问题prompt本身上最小化交叉熵损失即可。
由于仅仅需要在最后一层上优化一个加性的delta参数向量,每个问题只需要经过一次网络推理。通过把输入给最后一层的中间结果进行缓存,优化delta的过程几乎不需要增加计算开销。
由于方法十分简单,任何伪代码公式都多余,这里给出如何把SLOT应用于你的工作的transformers版本代码(vLLM版本也已开源)。

为什么如此有效?
深入分析揭示秘密
研究团队通过分析发现,SLOT优化后的delta会显著调整输出词汇的概率分布:
增强的词汇:reasoning、think、thinking等推理相关词汇
抑制的词汇:数字符号(0-9)、模态动词(should、will)、结束符
这意味着SLOT在鼓励模型「深思熟虑」,避免过早结束推理或陷入表面的模式匹配。
亮点在于:不同于SFT或者RL的微调算法,该方法无需:
修改模型架构
额外的训练数据
复杂的采样策略
昂贵的计算资源
广泛适用
从1. 5B到70B,从基础模型到推理专家
SLOT在各种规模和类型的模型上都展现出稳定的提升:
Qwen系列:1. 5B到32B均有提升。
Llama系列:包括Llama-3. 1。
DeepSeek-R1系列:即使是已经专门优化过推理能力的模型,仍能获得显著提升。
特别值得注意的是,在最具挑战性的任务上,SLOT的提升最为明显:
C-EvalHard子集:+8. 55%
AIME2024:部分模型提升超过13%
GPQADiamond:由65. 66提升到68.69(开源sota级别)
结语
在大模型时代,当所有人都在追求「更大、更强」时,SLOT用一个简单得「离谱」的想法证明:有时候,让模型在回答前先「理解」一下问题,就能带来惊人的效果。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录