直播预约 | Reasoning论文分享@ICML&ACL2025


直播预约 | Reasoning论文分享@ICML&ACL2025

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

Reasoning论文专题分享@ICML&ACL2025
微信视频号
b站直播间地址:https ://live. bilibili.com/27784098
北京时间:2025. 06.09(周一)09:00-12:00
纽约时间:2025. 06.08(周日)21:00-24:00

[ACL2025]InductionBench:LLMsFailintheSimplestComplexityClass-华文越UCSB
[ICML2025]TeachingLanguageModelstoCritiqueviaReinforcementLearning-谢知晖香港大学
[ICML2025]ImprovingRationalityintheReasoningProcessofLanguageModelsthroughSelf-playingGame-王品正苏州大学
[ACL2025]SelfReasoningLanguageModels-王鸿儒香港中文大学

李雅夫上海人工智能实验室研究员,研究方向涵盖大语言模型推理、可信人工智能与机器翻译。他于浙江大学与西湖大学联合培养攻读博士学位,先后在爱丁堡大学与武汉大学获得人工智能硕士和电子信息工程学士学位。李雅夫博士在ACL、EMNLP、ICLR、ICML等顶级会议上发表多项研究成果,引用逾2000次。曾荣获ACL2023最佳论文提名,并担任ACL领域主席及多个国际顶会与期刊的审稿人。
个人主页:https ://yafuly. github.io/yafuly/
论文:Test-TimePreferenceOptimization:On-the-FlyAlignmentviaIterativeTextualFeedback[ ICML2025]
本工作提出Test-TimePreferenceOptimization(TPO),一种无需重新训练、即可在推理阶段对齐大语言模型(LLM)输出与人类偏好的新方法。TPO通过将奖励模型提供的数值反馈转化为可解释的文本点评(即“文本损失”)和改进建议(即“文本梯度”),引导模型逐步优化回答。实验表明,TPO不仅能在少量迭代内显著提升未对齐模型的表现,甚至可超过已通过DPO等方式对齐的模型。此外,TPO具备良好的扩展性和效率,可作为训练时偏好优化的轻量替代方案。

论文:InductionBench:LLMsFailintheSimplestComplexityClass[ ACL2025]
大语言模型(LLM)的推理能力已取得显著进展,以o1和o3为代表的模型已能完全或部分解决现有大多数基准测试任务。然而,这些测试主要关注演绎推理任务,如数学和编程类问题——这类任务的规则(如数学公理或编程语法)都有明确定义,语言模型可以据此规划并应用规则来推导答案。相比之下,语言模型从观测数据中推断潜在规则的归纳推理能力仍缺乏深入研究,而这种能力正是科学发现的核心,能让研究者从经验观察中总结出普遍规律。为系统评估语言模型的归纳推理能力,我们开发了InductionBench这一全新基准测试。实验结果显示,即便是当前最先进的语言模型,也难以处理亚正则函数层次结构中最基础的复杂度类别,这表明现有LLM在归纳推理方面存在明显不足。
谢知晖香港大学计算机科学系一年级博士研究生,研究方向涵盖大语言模型对齐、强化学习、多模态模型等领域,在ICLR、NeurIPS、ICML等会议发表多篇论文。
个人主页:https ://zhxie. site/
论文:TeachingLanguageModelstoCritiqueviaReinforcementLearning[ ICML2025]
迭代改进能力是实现更高级人工智能的关键。我们的研究探索LLMCritic的高效训练方法,提出CTRL(CriticTrainingviaReinforcementLearning)框架,旨在教会语言模型生成既能准确判别方案正误,又能提供建设性具体改进建议的批判性反馈,从而有效引导其他模型迭代优化其输出。CTRL训练的Critic模型不仅能显著提升基础生成模型在复杂代码竞赛题目基准上的通过率,还能有效缓解多轮修正中的错误累积。此外,CTRL展现了强大的“弱模型指导强模型”的能力,并通过迭代式的“批判-修正”过程实现高效的测试时性能扩展。
王品正苏州大学博士研究生,师从MinZhang教授和JuntaoLi副教授。研究兴趣为强化学习和推理大模型,在ICML,ICLR,ACL和SCIS等会议和期刊上发表文章。
个人主页:https ://pinzhengwang322. github.io/
论文:ImprovingRationalityintheReasoningProcessofLanguageModelsthroughSelf-playingGame[ ICML2025]
当前的大语言模型在推理任务中虽然表现出色,但在理解自身推理过程方面仍存在不足,尤其难以察觉自身推理中的错误(即使模型已掌握相关知识)。为此,我们提出了一种全新的、无需监督信号的自我提升策略——CriticDiscermentGame(CDG)。该方法借鉴了AlphaGo中的对抗性self-play强化学习机制,通过两组互为对手的“Prover”与“Critic”的交互博弈,逐步增强模型对自身推理过程的认知与判断能力。实验结果显示,CDG在多个任务领域中均带来了显著且一致的性能提升,模型不仅更擅长发现和修正自身的推理错误,也展现出更强的推理理解能力。这项工作为提升大模型的“自知之明”提供了全新思路。
王鸿儒目前就读于香港中文大学博士四年级,导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等,英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,在国际顶级会议如NeurIPS,ACL,EMNLP,NAACL,COLING等发表30余篇相关论文,其中包括10多篇一作或共一论文,代表工作有Cue-CoT,SAFARI,AppBench,Self-DC,OTC,TheoryofAgent等,谷歌学术引用超700次,NeurIPSAreaChair以及多个国际顶级会议审稿人,NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL2024@SIGHAN最佳论文奖,WWW2024OnlineSafetyPrizeChallenge冠军等多项荣誉,并在SIGIR2024组织第一届ToolLearning研讨会,研究获得过TBF,OSCP等多项研究基金支撑。
个人主页:https ://rulegreen. github.io/
论文:SelfReasoningLanguageModels[ ACL2025]
Inference-timeScaling备受关注,它通过增加思维链的长度显著提升了大语言模型(LLM)在复杂推理任务中的表现。这些较长的中间推理基本原理体现了人类认知中的各种元推理技能,例如反思和分解,但这些技能难以创建和习得。在本研究中,我们引入了自推理语言模型(SRLM),模型本身可以合成更长的思维链数据,并通过自我训练迭代提升性能。通过结合一些演示示例(即1,000个样本),演示如何从现有回复中展开隐藏的推理链,这些推理链充当推理催化剂,我们证明了SRLM不仅提升了模型的初始性能,还能确保后续迭代中性能更稳定、更一致的提升。我们提出的SRLMMMLU、GSM8K、ARC-C、HellaSwag和BBH五项推理任务上,基于两个骨干模型,实现了超过+2. 5分的平均绝对提升。此外,随着推理采样次数的增加,其性能提升也更为显著,例如在64次采样后,其平均绝对提升达到+7. 89分,这展现了SRLM在强大基线模型基础上所展现出的深度、多样性和创造性的推理路径。
徐俊东新加坡国立大学(NUS)计算机系的博士候选人。他硕士毕业于新加坡国立大学计算机系,本科毕业于伦敦大学学院(UCL)。其研究方向聚焦于人工智能中的推理能力,特别是逻辑推理与符号推理。
个人主页:https ://aiden0526. github.io/

在大语言模型(LLMs)中,尽管现有推理方法在多种任务上取得了显著进展,但在逻辑推理任务中仍面临效率和效果的双重挑战。根本原因在于现有方法未能在分解、搜索与求解等过程中充分利用逻辑任务的结构性。为此,我们提出了逻辑完备推理框架Aristotle,包含三大核心模块:逻辑分解器、逻辑搜索路由器和逻辑求解器。该框架在推理全流程中深度融合符号表达与逻辑规则,有效缓解逻辑推理中的瓶颈,降低子任务复杂度,减少搜索误差,并解决逻辑矛盾。多项数据集实验结果表明,Aristotle在准确性与效率上均优于现有先进方法,尤其在复杂逻辑推理场景中表现突出。
王鸿儒,目前就读于香港中文大学博士四年级,导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等,英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,在国际顶级会议如NeurIPS,ACL,EMNLP,NAACL,COLING等发表30余篇相关论文,其中包括10多篇一作或共一论文,代表工作有Cue-CoT,SAFARI,AppBench,Self-DC,OTC,TheoryofAgent等,谷歌学术引用超700次,NeurIPSAreaChair以及多个国际顶级会议审稿人,NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL2024@SIGHAN最佳论文奖,WWW2024OnlineSafetyPrizeChallenge冠军等多项荣誉,并在SIGIR2024组织第一届ToolLearning研讨会,研究获得过TBF,OSCP等多项研究基金支撑。
个人主页:https ://rulegreen. github.io/
欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

编辑:宁钰成中科院博士在读


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录