新加坡研究机构与高校发布最新Reasoning综述,从推理扩展、学习推理到Agent系统
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
过去的大模型像“复读机”,只能根据输入直接输出答案。现在的LLM却学会了“像人类一样分步骤推理”——比如解数学题时先列公式、再计算,甚至能自我纠错。
论文用两个关键维度分类所有技术:
Regimes(推理阶段):
推理扩展:测试时“多动脑”,比如生成多条思路选最优(类似考试时多检查几遍)。
学习推理:训练时“学套路”,通过大量题目练习形成固定思维模式。
Architectures(架构):
单模型:一个AI独立完成任务。
代理系统:AI调用工具(如计算器)、甚至多个AI协作(像辩论队)。
关键结论:两种维度正交组合,比如单模型也能用推理扩展,代理系统也能用学习推理,灵活搭配效果更佳!
经典方法:思维链(Chain-of-Thought,CoT),让模型分步写解题过程。
进阶玩法:
树状思考(Tree-of-Thoughts):同时探索多条思路,像走迷宫时试不同路径。
自我反思(Self-Refinement):模型写完答案后自我批评:“这一步好像错了,重来!”
监督学习:用标准答案的解题步骤训练模型(像老师批改作业)。
强化学习:模型自己尝试解题,根据最终得分调整策略(像打游戏刷经验)。
偏好学习(DPO):让模型对比“好答案”和“坏答案”,学会分辨优劣。
公式彩蛋:强化学习的目标函数(模型的目标是最大化累计奖励,类似游戏攒积分)
优点:简单高效,适合常规问题。
缺点:知识有限,复杂任务易“卡壳”。
外挂工具:调用计算器、搜索引擎等,比如解方程时自动验算。
自我验证:模型生成答案后,用另一个模块检查合理性(像写完作文用Grammarly纠错)。
辩论模式:多个AI分别解题,投票选最优(像学术研讨会)。
分工协作:有的AI负责检索资料,有的专攻计算,最后汇总结果。
案例:OpenAI的DeepResearch模型能自动上网查资料、写代码验证,像一名“全能研究员”。
数据优化:
题目增强:用现有问题生成更难的变体(像奥数题改编)。
轨迹蒸馏:让小模型模仿大模型的解题思路(学霸带学渣)。
算法升级:
GRPO算法:通过群体对比优化策略,避免“偏科”。
隐式推理:压缩冗长的思考步骤,让AI“心里算”不写出来。
评估难题:如何判断模型的推理过程是否合理?现有方法依赖标准答案,但人类专家也常意见分歧。
数据瓶颈:高质量推理数据稀缺,自动生成的数据可能“带偏”模型。
逻辑黑箱:模型的推理步骤是真正思考,还是模仿训练数据的套路?
趋势预测
领域专用模型:数学、编程等垂直领域将出现“推理专家”。
人机协作:模型负责推导,人类负责审核,互补短板。
忘了数了,这是最近第几篇Reasoning综述了?5?
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦