推理成本降98%，准确率升13%！微软提出TwT：Thinking without Tokens

发布日期: 2025-04-16

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

如今的大模型（如GPT-4o）越来越聪明，但“聪明”的背后是巨大的计算成本。比如，解答一道数学题时，模型会一步步写出推理过程，虽然答案更准，但生成的文字量暴涨，导致算力消耗和响应时间激增。这就像学生考试时写满草稿纸——虽然得分高，但太费时间！

微软团队提出的TwT（ThinkingwithoutTokens），目标很直接：让LLM像学霸一样，不用写草稿也能直接答对题。实现这一目标靠两大绝招：
绝招一：多教师筛选优质答案（DCRS策略）
问题：传统蒸馏依赖单一老师的答案，容易片面；人工标注数据又贵又少。
解法：TwT请多位“老师模型”（如GPT-4、Mistral等）各自写答案，再用双标准筛选：
质量关：综合代码正确性、逻辑清晰度等指标打分，只留高分答案（公式：）。
多样性关：挑出老师们观点差异最大的答案，避免“标准答案”单一化（用余弦相似度对比）。
效果：既保质量，又增多样性，完美适配无监督场景！
绝招二：三步内化推理能力（HaRD方法）
阶段1：学生模型先学老师的完整解题步骤（带详细草稿）。
阶段2：老师根据学生表现压缩推理步骤，比如原本10步的思考缩成5步。
阶段3：直接去掉推理步骤，只学题目和答案，训练学生“秒答”能力。
类比：就像学霸辅导学渣——先教详细解法，再简化步骤，最后训练条件反射！
论文在代码生成（MBPP）、常识问答（CQA）、数学推理（MetaMath）三个任务中测试，结果惊人：
性能提升：相比传统蒸馏方法，TwT准确率最高提升13.6%。
成本暴降：生成答案的token数减少98%（比如数学题从397个token降到7个！）。
渐进式提升：三阶段训练中，模型准确率逐步上升，token数逐步下降。
企业端：推理成本降低98%，意味着同样算力可服务更多用户。
用户端：响应速度更快，比如数学题从“等10秒”变成“秒出答案”。
环保意义：减少算力消耗=减少碳排放，AI也能更绿色！
局限：目前仅适用于特定任务（如代码、数学），混合任务表现待改进；筛选过程可能有噪声干扰。
未来方向：探索更多任务类型，研究隐式推理机制，让LLM真正“无师自通”。
确实test-timereasoning太长了，还是需要瘦身下，需要更多后续研究多多探讨下。
备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群
id：DLNLPer，记得备注呦