Hugging Face论文热榜第一!AI推理新方法,打破强化学习天花板,全面开源
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
来源:夕小瑶科技说
本文提出LUFFY强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。LUFFY通过将高质量专家示范制定为一种离策略指引,并引入混合策略优化与策略塑形机制,稳定地实现了在保持探索能力的同时高效吸收强者经验。在六项数学竞赛级基准测试中,LUFFY显著超越现有Zero-RL方法,平均提升+7.0分,并展现出优异的泛化能力,为通用推理模型训练提供了新思路。
论文标题:LearningtoReasonunderOff-policyGuidance
论文地址:https ://arxiv.org/abs/2504.14945
Huggingface地址:
https ://huggingface.co/papers/2504.14945
Github地址:https ://github.com/ElliottYan/LUFFY
图1.在六项竞赛级数学推理基准上的表现。在AIME2024、AIME2025、AMC、MATH-500、MinervaMath和OlympiadBench六个高难度基准测试中,LUFFY取得了平均49.6%的准确率,较现有Zero-RL方法实现了超过+7.0分的显著性能提升。
该工作一经发布,便登上HuggingFace社区的DailyPapers热榜第一,获得众多研究者点赞认可。
背景:“只学不练”与“只练不学”的困境
在大推理模型(largereasoningmodels)学习复杂推理技能的过程中,最近的一系列研究工作主要尝试了两种策略:一是模仿学习(例如SFT),让模型去学习强大神经模型或人类专家的推理示范;二是强化学习(尤其是zero-RL范式),让模型通过与环境的交互自行摸索解决问题的策略。前者侧重从强者策略”学“习,后者鼓励在环境中历”练“。然而,两种策略各有其无法规避的弊端:
SFT“只学不练”:如果模型只是模仿强者的解题步骤(如直接用专家轨迹进行监督微调),它或许能快速取得不错的表现,但很可能只是照猫画虎地套用了示范中的模式。一旦遇到超出示范分布的新问题,它往往难以举一反三,暴露出泛化能力的不足[1,2]。
图2.模仿学习(SFT):模型通过模仿专家模型生成的高质量推理轨迹,学习完成推理任务。
zero-RL“只练不学”:另一种极端下,模型完全依赖自身的试错来提升推理能力。然而,该策略受制于模型本身能力,闭门造车,很难在推理行为上产生质的飞跃。最近也有研究[3,4]表明,该范式更多地是放大模型在预训练阶段学习到的行为,并没有获取额外的推理能力。
图3.强化学习:模型通过多轮推理尝试,根据与环境(如验证器)的交互反馈,不断优化自身策略。
显然,“只学不练”和“只练不学”都无法让推理模型充分挖掘潜力。那么有没有办法让模型既能借鉴高手经验,又能保持自身探索,兼顾两方面的优点呢?
这正是研究者们一直思考的问题。最近,上海AILab联合西湖大学、南京大学和香港中文大学提出了一种全新的大模型推理强化学习范式,取名为LUFFY(LearningtoreasonUnderoFF-policYguidance),其核心理念在于从更优策略中汲取推理知识,并即时融入自身推理实践之中,从而实现真正意义上的“边学边练,学以致用”。
LUFFY的“边学边练”新范式
图4.LUFFY:边学边练的推理学习框架。LUFFY在强化学习框架中引入外部优质推理轨迹,通过“策略塑形”机制,融合自身尝试(on-policy)与专家示范(off-policy)的优势。当模型自身推理失败时,它从专家示范中学习关键步骤;而当自身表现优异时,则保持独立探索。
LUFFY的名字来源于“离策略(off-policy)指导下学习推理”。它所倡导的“边学边练”范式,指的是模型能够一边向更强的老师学习,一边立即把学到的本领用于问题求解。在LUFFY的训练框架中(如图4所示),我们会同时利用离策略的示范轨迹和模型自身的在线演练:
一方面,LUFFY会引入来自强大外部策略的高质量推理示范(off-policytraces),例如让一个性能很强的“大师级”模型先解一道题,提供它的思考步骤。当LUFFY的模型在自己尝试某个问题时,如果陷入失败或走入死胡同,就可以参考这些离策略示范,模仿其中有效的推理步骤,相当于向高手取经。
另一方面,LUFFY并不是盲目照搬示范。它仍然让模型不断进行自主的推理尝试(on-policyrollouts),并在模型自己解对了的时候坚持让它走自己的路,给予模型自由探索的空间。
通过将这两种来源的经验融合,LUFFY实现了模仿与探索的动态平衡:模型既不会因为缺少练习而固步自封,也不会因为缺少指引而原地打转。正如作者所说,LUFFY让模型的训练过程达到了一个“即模仿又探索”的自适应平衡。
值得注意的是,实现这种平衡并非易事。如果简单地把外部示范硬塞给模型,实验表明会出现训练收敛过快甚至“熵”崩塌(EntropyCollapse)的问题。换句话说,模型可能会因为过度依赖示范而变得贪婪保守,只记住表面的套路,反而学不到深层次的推理本领。LUFFY通过一系列巧妙的技术设计,化解了这一矛盾,使“边学边练”真正奏效。
方法创新:混合策略GRPO与“策略塑形”
从技术实现上看,LUFFY基于强化学习算法GRPO,针对融合外部示范的挑战引入了两大关键机制:
混合策略训练:
LUFFY在策略优化过程中,将离策略示范与在线轨迹相结合,形成一种混合的训练策略(Mixed-Policy)。具体来说,在每一轮更新中,模型的自身rollout生成的轨迹与来自强者的off-policy轨迹一起用于计算强化学习中的优势函数(advantage)。
那些外部示范往往伴随着更高的奖励信号(因为强者解题更正确),在优势估计中提供了宝贵的信息。因此,当模型自己的解答不理想时,优化算法会倾向于学习模仿外部高奖励的示范;反之,当模型自己表现良好时,则主要依据自身轨迹来更新。这种混合策略的GRPO训练让模型能够见贤思齐,又不失去自主成长的机会。
策略塑形(PolicyShaping)与熵保持:
为了避免模型对示范的生搬硬套,LUFFY引入了策略塑形机制。它通过一种正则化的重要性采样技巧,放大那些对成功至关重要但在模型当前策略下出现概率很低的行动的学习信号。简单来说,就是让模型更加关注那些它原本很少尝试、但专家解题中出现的关键步骤。这种策略塑形相当于有针对性地纠偏:既引导模型汲取高手解题的精华,又防止模型把不重要的表面模式一股脑模仿过去。
同时,作者在训练中注意保持模型决策的熵值(entropy)。这意味着模型在学习示范的同时仍保有一定的随机探索成分,不会彻底放弃对新解法的尝试。最终,LUFFY的模型既能吸收示范中蕴含的巧妙思路,又能持续拓展自己的能力边界。如图5所示,策略塑形通过非线性函数,缓解了直接引入离策略示范导致的熵崩塌[5]。
图5.策略塑形在LUFFY中的作用效果。LUFFY通过“策略塑形”机制缓解混合策略训练中的熵崩塌问题,提升模型对低概率关键动作的关注度。左图:训练过程中的策略熵对比。传统on-policy与混合策略方法在早期迅速熵崩塌(即生成高度确定性),而LUFFY借助策略塑形保持较高熵值,显著增强了持续探索能力。中图:不同方法下损失函数基于决策概率的权重分配。右图:基于决策概率的梯度加权情况对比。LUFFY通过非线性权重提升了对罕见(低概率)但重要行为的梯度响应,进而引导模型更有效地从off-policy示范中习得深层推理模式。
图6.策略塑形函数f()可被看作正则约束下的重要性采样,鼓励模型关注低概率、但可能重要的行为决策。
通过上述技术创新,LUFFY实现了“边学边练”的有效融合:模型能够在强化学习训练的每一步,都动态地决定何时该学习别人、何时该相信自己,从而逐步习得超越其起始能力的推理技能。
实验结果:“边学边练”的优势
表1.在六项竞赛级数学推理基准上的整体表现。在AIME2024、AIME2025、AMC、MATH-500、MinervaMath和OlympiadBench六个高难度基准测试中,LUFFY取得了平均49.6%的准确率,显著超越现有zero-RL范式。
LUFFY方法在多项高难度数学推理基准上取得了令人瞩目的成绩(完整数据已在GitHub项目中公开)。表1总结了在6个竞赛级别的数学推理数据集上的总体表现(底座模型为Qwen-Math-7B)。可以看到,LUFFY的平均解题准确率达到了49.6%,相较此前一系列纯强化学习方案提升了约7个百分点,刷新了这一领域的最佳水平(SOTA)。这证明将外部高手示范融入强化学习能够带来显著性能提升。
表2.分布外测试集的性能表现(ARC-c,GPQA-diamond和MMLU-Pro)。
更令人惊喜的是,在更具挑战性的分布外测试中(即模型遇到超出训练分布的新题型,结果汇总如表2),LUFFY同样表现出色:平均准确率57.8%,显著超越此前系列zero-RL方法,且比纯模仿的SFT高出约10个百分点。换言之,LUFFY训练出的模型不仅在见过类型的问题上表现突出,在举一反三的能力上也胜过照搬示范的模型。
表3.LUFFY在Qwen2.5-Math-1.5B上的性能表现。
表4.LUFFY在Qwen2.5-Instruct-7B上的性能表现。
此外,如表3和4所示,LUFFY也在其他模型上展现出了有效性,例如更小的模型和指令对齐后的模型。
学以致用:对优质推理策略的深度理解
研究人员的分析进一步表明:LUFFY的模型在推理时能够灵活地借鉴示范,但并不会拘泥于固定模式;相比之下,传统的SFT模型更多是刻板地记忆了示范套路,这也解释了为何LUFFY在泛化性上更胜一筹。
从图7可以看出,LUFFY在生成正确解时的平均推理长度明显短于SFT,展现出更高效的推理路径。尤其在错误解的分布中,SFT倾向于陷入冗长、低效的表面推理过程,生成大量无效信息;而LUFFY则更倾向于早停错误尝试,避免无意义展开,体现了其更强的推理控制能力和路径优化能力。
图7.LUFFY和SFT的推理长度对比。
从图8可见,LUFFY在不同温度下均展现出稳定且持续增长的pass@8mailto:pass@8表现,展现出优异的测试阶段探索能力。与之相比,SFT仅在低温度(接近确定性解码)下表现尚可,但在温度升高后性能反而下降,难以挖掘新的解题路径。这表明LUFFY不仅能学习已有推理模式,更具备泛化探索能力,而SFT更容易陷入“模式记忆”,缺乏动态适应性。
图8.LUFFY和SFT在测试时探索能力对比。
结语:意义与展望
LUFFY所开创的“边学边练”范式,为大模型推理能力的训练提供了一条兼顾效率与效果的新路径。通过桥接“模仿学习”和“强化学习”这两种思路,LUFFY证明了离策略指导在提升模型高阶推理能力上的巨大潜力:模型可以突破自身的先天局限,吸收更强者的经验而又不失自我进化的空间。这一方法具有相当的通用性:未来,随着更强大的推理模型出现,我们完全可以将其作为“教师”融入LUFFY框架,不断提高“学生”模型的上限;同时,“边学边练”的理念也有望推广到数学之外的其它复杂推理领域,比如代码推理、科学问答等。
对于研发AI应用的工程师来说,LUFFY的思路也提供了启发:我们无需在“模仿”还是“探索”之间二选一,而是可以设计智能体一边向历史经验学习,一边在实践中创新。目前,LUFFY的代码和模型已在GitHub开源,有兴趣的读者可以亲自尝试这一“边学边练”的新范式。未来,我们期待看到LUFFY在更多领域的探索和改进,持续推动推理模型迈向更通用、更智慧的推理时代。
另外,感兴趣的读者可以上alphaXiv向作者提问,参与讨论~
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https ://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx.zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
壳牌:2025能源安全远景报告:能源与人工智能(57页)
盖洛普&牛津幸福研究中心:2025年世界幸福报告(260页)
Schwab:2025未来共生:以集体社会创新破解重大社会挑战研究报告(36页)
IMD:2024年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214页)
DS系列专题:DeepSeek技术溯源及前沿探索,50页ppt
联合国人居署:2024全球城市负责任人工智能评估报告:利用AI构建以人为本的智慧城市(86页)
TechUK:2025全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52页)
NAVEXGlobal:2024年十大风险与合规趋势报告(42页)
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma:2024年全球生物制药行业展望报告:增长驱动力分析(29页)
【AAAI2025教程】基础模型与具身智能体的交汇,350页ppt
Tracxn:2025全球飞行汽车行业市场研究报告(45页)
谷歌:2024人工智能短跑选手(AISprinters):捕捉新兴市场AI经济机遇报告(39页)
【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心:2025CSET对美国人工智能行动计划的建议(18页)
罗兰贝格:2024人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11页)
兰德公司:2025从研究到现实:NHS的研究和创新是实现十年计划的关键报告(209页)
康桥汇世(CambridgeAssociates):2025年全球经济展望报告(44页)
国际能源署:2025迈向核能新时代
麦肯锡:人工智能现状,组织如何重塑自身以获取价值
威立(Wiley):2025全球科研人员人工智能研究报告(38页)
牛津经济研究院:2025TikTok对美国就业的量化影响研究报告:470万岗位(14页)
国际能源署(IEA):能效2024研究报告(127页)
Workday:2025发挥人类潜能:人工智能(AI)技能革命研究报告(20页)
CertiK:Hack3D:2024年Web3.0安全报告(28页)
世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告
迈向推理时代:大型语言模型的长链推理研究综述
波士顿咨询:2025亚太地区生成式AI的崛起研究报告:从技术追赶者到全球领导者的跨越(15页)
安联(Allianz):2025新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33页)
IMT:2025具身智能(EmbodiedAI)概念、核心要素及未来进展:趋势与挑战研究报告(25页)
IEEE:2025具身智能(EmbodiedAI)综述:从模拟器到研究任务的调查分析报告(15页)
CCAV:2025当AI接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124页)
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》
全国机器人标准化技术委员会:人形机器人标准化白皮书(2024版)(96页)
美国国家科学委员会(NSB):2024年研究与发展-美国趋势及国际比较(51页)
艾昆纬(IQVIA):2025骨科手术机器人技术的崛起白皮书:创新及未来方向(17页)
NPL&Beauhurst:2025英国量子产业洞察报告:私人和公共投资的作用(25页)
IEAPVPS:2024光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65页)
AGI智能时代:2025让DeepSeek更有趣更有深度的思考研究分析报告(24页)
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37页)
华为:2025鸿蒙生态应用开发白皮书(133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟(QuIC):2024年全球量子技术专利态势分析白皮书(34页)
美国能源部:2021超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60页)
罗马大学:2025超级高铁(Hyperloop):第五种新型交通方式-技术研发进展、优势及局限性研究报告(72页)
兰德公司:2025灾难性网络风险保险研究报告:市场趋势与政策选择(93页)
GTI:2024先进感知技术白皮书(36页)
AAAI:2025人工智能研究的未来报告:17大关键议题(88页)
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信:2025全球洪水风险研究报告:现状、趋势及应对措施(22页)
兰德公司:迈向人工智能治理研究报告:2024EqualAI峰会洞察及建议(19页)
哈佛商业评论:2025人工智能时代下的现代软件开发实践报告(12页)
德安华:全球航空航天、国防及政府服务研究报告:2024年回顾及2025年展望(27页)
奥雅纳:2024塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28页)
HSOAC:2025美国新兴技术与风险评估报告:太空领域和关键基础设施(24页)
Dealroom:2025欧洲经济与科技创新发展态势、挑战及策略研究报告(76页)
《无人机辅助的天空地一体化网络:学习算法技术综述》
谷歌云(GoogleCloud):2025年AI商业趋势白皮书(49页)
《新兴技术与风险分析:太空领域与关键基础设施》最新报告
150页!《DeepSeek大模型生态报告》
军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态-250309(40页)
真格基金:2024美国独角兽观察报告(56页)
璞跃(PlugandPlay):2025未来商业研究报告:六大趋势分析(67页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界:多模态生成模型的统一综述
中国信息协会低空经济分会:低空经济发展报告(2024-2025)(117页)
浙江大学:2025语言解码双生花:人类经验与AI算法的镜像之旅(42页)
人形机器人行业:由“外”到“内”智能革命-250306(51页)
大成:2025年全球人工智能趋势报告:关键法律问题(28页)
北京大学:2025年DeepSeek原理和落地应用报告(57页)
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用
电子行业:从柔性传感到人形机器人触觉革命-250226(35页)
RT轨道交通:2024年中国城市轨道交通市场数据报告(188页)
FastMoss:2024年度TikTok生态发展白皮书(122页)
CheckPoint:2025年网络安全报告-主要威胁、新兴趋势和CISO建议(57页)
【AAAI2025教程】评估大型语言模型:挑战与方法,199页ppt
《21世纪美国的主导地位:核聚变》最新报告
沃尔特基金会(VoltaFoundation):2024年全球电池行业年度报告(518页)
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
国际科学理事会:2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告(英文版)(118页)
光子盒:2025全球量子计算产业发展展望报告(184页)
奥纬论坛:2025塑造未来的城市研究报告:全球1500个城市的商业吸引力指数排名(124页)
FutureMatters:2024新兴技术与经济韧性:日本未来发展路径前瞻报告(17页)
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性:从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用:近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心:2024美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28页)
空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理-250224(33页)
Gartner:2025网络安全中的AI:明确战略方向研究报告(16页)
北京大学:2025年DeepSeek系列报告-提示词工程和落地场景(86页)
北京大学:2025年DeepSeek系列报告-DeepSeek与AIGC应用(99页)
CIC工信安全:2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42页)
中科闻歌:2025年人工智能技术发展与应用探索报告(61页)
AGI智能时代:2025年Grok-3大模型:技术突破与未来展望报告(28页)
上下滑动查看更多