推理成本降98%,准确率升13%!微软提出TwT:Thinking without Tokens
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
如今的大模型(如GPT-4o)越来越聪明,但“聪明”的背后是巨大的计算成本。比如,解答一道数学题时,模型会一步步写出推理过程,虽然答案更准,但生成的文字量暴涨,导致算力消耗和响应时间激增。这就像学生考试时写满草稿纸——虽然得分高,但太费时间!
微软团队提出的TwT(ThinkingwithoutTokens),目标很直接:让LLM像学霸一样,不用写草稿也能直接答对题。实现这一目标靠两大绝招:
绝招一:多教师筛选优质答案(DCRS策略)
问题:传统蒸馏依赖单一老师的答案,容易片面;人工标注数据又贵又少。
解法:TwT请多位“老师模型”(如GPT-4、Mistral等)各自写答案,再用双标准筛选:
质量关:综合代码正确性、逻辑清晰度等指标打分,只留高分答案(公式:)。
多样性关:挑出老师们观点差异最大的答案,避免“标准答案”单一化(用余弦相似度对比)。
效果:既保质量,又增多样性,完美适配无监督场景!
绝招二:三步内化推理能力(HaRD方法)
阶段1:学生模型先学老师的完整解题步骤(带详细草稿)。
阶段2:老师根据学生表现压缩推理步骤,比如原本10步的思考缩成5步。
阶段3:直接去掉推理步骤,只学题目和答案,训练学生“秒答”能力。
类比:就像学霸辅导学渣——先教详细解法,再简化步骤,最后训练条件反射!
论文在代码生成(MBPP)、常识问答(CQA)、数学推理(MetaMath)三个任务中测试,结果惊人:
性能提升:相比传统蒸馏方法,TwT准确率最高提升13.6%。
成本暴降:生成答案的token数减少98%(比如数学题从397个token降到7个!)。
渐进式提升:三阶段训练中,模型准确率逐步上升,token数逐步下降。
企业端:推理成本降低98%,意味着同样算力可服务更多用户。
用户端:响应速度更快,比如数学题从“等10秒”变成“秒出答案”。
环保意义:减少算力消耗=减少碳排放,AI也能更绿色!
局限:目前仅适用于特定任务(如代码、数学),混合任务表现待改进;筛选过程可能有噪声干扰。
未来方向:探索更多任务类型,研究隐式推理机制,让LLM真正“无师自通”。
确实test-timereasoning太长了,还是需要瘦身下,需要更多后续研究多多探讨下。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦