更多thinking≠更好结果,精准thinking可砍掉一半长度


更多thinking≠更好结果,精准thinking可砍掉一半长度

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大模型推理为什么又长又啰嗦?
想象一下让学霸解题:明明第一步就得出答案,却非要反复验算十遍,还写满整张草稿纸——这就是当前大模型(如GPT-4、DeepSeek)的痛点!
论文:OptimizingLengthCompressioninLargeReasoningModels链接:https ://arxiv. org/pdf/2506. 14755
论文发现:模型在简单题目上过度推理,生成大量无关步骤。比如解方程时,答案早出现了,后面全是\“让我再检查一下…\“的废话。
如图对比:普通模型像写小作文,LC-R1训练后像发微博
作者提出\“无效思考\“(InvalidThinking)概念:
定义:模型得出正确答案后继续的冗余验证步骤量化指标VT率:有效推理长度÷总推理长度
惊人数据:当前顶尖模型的平均VT率仅58-65%,意味着35-45%的计算资源在空转!
好比打车去3公里外吃饭,司机绕路开了6公里
传统方法粗暴砍长度可能误伤关键步骤。本文提出两大原则:
Brevity(简短):只保留必要推理,答案一出立刻停笔
Sufficiency(够用):确保关键逻辑步骤不丢失
类比烹饪:
普通厨师:煮面10分钟,再煮5分钟\“确保熟透\“→冗余
智能厨师:煮面10分钟,筷子一夹就关火→Brevity+Sufficiency
核心方法:用强化学习给模型\“植入条件反射\“
长度奖励:整体输出越短,奖励越大(防啰嗦)
压缩奖励:精准识别\“无效思考\“并删除(防过度检查)
关键操作:当模型首次输出正确答案时,立刻给标记发\“红包\“(奖励),训练它养成答完即停的习惯!
公式示意:压缩奖励=1-(有效长度/原始长度)提前终止时罚分-1(避免偷工减料)
在7大测试集(数学/编程/逻辑题)中,LC-R1碾压其他压缩方法:
平均缩短50%长度:从1万token→5千token
精度仅下降1. 8-2. 1%(其他方法降幅4-12%)
VT率飙升至97%(原模型仅58%)
如图:LC-R1稳居帕累托前沿最优位置
案例对比:同一道数学题
原始模型:写1600字小作文(43%是废话)
LC-R1:500字搞定,逻辑完整
不影响探索能力:多次尝试解题的成功率不变
通杀难易题目:从小学数学到奥赛题,压缩率稳定
\“删掉的真是纯废话,留着的全是干货!\“
LC-R1的价值不仅是技术突破,更揭示了模型推理的本质规律:更多步骤≠更好结果,精准思考才是王道。
备注:昵称-学校/公司-方向/会议(eg. ACL),进入技术/投稿群
id:DLNLPer,记得备注呦


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录