新加坡研究机构与高校发布最新Reasoning综述，从推理扩展、学习推理到Agent系统

发布日期: 2025-04-15

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

过去的大模型像“复读机”，只能根据输入直接输出答案。现在的LLM却学会了“像人类一样分步骤推理”——比如解数学题时先列公式、再计算，甚至能自我纠错。

论文用两个关键维度分类所有技术：
Regimes（推理阶段）：
推理扩展：测试时“多动脑”，比如生成多条思路选最优（类似考试时多检查几遍）。
学习推理：训练时“学套路”，通过大量题目练习形成固定思维模式。
Architectures（架构）：
单模型：一个AI独立完成任务。
代理系统：AI调用工具（如计算器）、甚至多个AI协作（像辩论队）。
关键结论：两种维度正交组合，比如单模型也能用推理扩展，代理系统也能用学习推理，灵活搭配效果更佳！
经典方法：思维链（Chain-of-Thought,CoT），让模型分步写解题过程。
进阶玩法：
树状思考（Tree-of-Thoughts）：同时探索多条思路，像走迷宫时试不同路径。
自我反思（Self-Refinement）：模型写完答案后自我批评：“这一步好像错了，重来！”
监督学习：用标准答案的解题步骤训练模型（像老师批改作业）。
强化学习：模型自己尝试解题，根据最终得分调整策略（像打游戏刷经验）。
偏好学习（DPO）：让模型对比“好答案”和“坏答案”，学会分辨优劣。
公式彩蛋：强化学习的目标函数（模型的目标是最大化累计奖励，类似游戏攒积分）
优点：简单高效，适合常规问题。
缺点：知识有限，复杂任务易“卡壳”。
外挂工具：调用计算器、搜索引擎等，比如解方程时自动验算。
自我验证：模型生成答案后，用另一个模块检查合理性（像写完作文用Grammarly纠错）。
辩论模式：多个AI分别解题，投票选最优（像学术研讨会）。
分工协作：有的AI负责检索资料，有的专攻计算，最后汇总结果。
案例：OpenAI的DeepResearch模型能自动上网查资料、写代码验证，像一名“全能研究员”。
数据优化：
题目增强：用现有问题生成更难的变体（像奥数题改编）。
轨迹蒸馏：让小模型模仿大模型的解题思路（学霸带学渣）。
算法升级：
GRPO算法：通过群体对比优化策略，避免“偏科”。
隐式推理：压缩冗长的思考步骤，让AI“心里算”不写出来。
评估难题：如何判断模型的推理过程是否合理？现有方法依赖标准答案，但人类专家也常意见分歧。
数据瓶颈：高质量推理数据稀缺，自动生成的数据可能“带偏”模型。
逻辑黑箱：模型的推理步骤是真正思考，还是模仿训练数据的套路？
趋势预测
领域专用模型：数学、编程等垂直领域将出现“推理专家”。
人机协作：模型负责推导，人类负责审核，互补短板。
忘了数了，这是最近第几篇Reasoning综述了？5？
备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群
id：DLNLPer，记得备注呦