直播预约:NICE×UIUC|伊利诺伊大学香槟分校(UIUC)专场分享会重磅开启!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
NICE学术将于北京时间06月29日上午10:00(纽约时间06月28日晚22:00)举办UIUC专场论文分享会,由陈修司博士(UIUC博后)担任主持人,特邀钱成(UIUC博士生)、王鸿儒(UIUC访问学者)、金博文(UIUC博士生)、李高棠(UIUC博士生)及陈修司(UIUC博后)担任讲者,聚焦学术前沿议题展开深度分享,解锁学术前沿硬货!
NICE×UIUC:伊利诺伊大学香槟分校专场分享会
微信视频号:
b站直播间:
https ://live. bilibili.com/27784098
(点击文末「阅读原文」即可跳转)
北京时间:2025. 06.29(周日)10:00
纽约时间:2025. 06.28(周六)22:00
ModelingAgent:BridgingLLMsandMathematicalModelingforReal-WorldChallenges,钱成
TheoryofAgent:FromDefinitiontoBehaviorandObjective,王鸿儒
AnEmpiricalStudyonReinforcementLearningforReasoning-SearchInterleavedLLMAgents,金博文
TamingKnowledgeConflictsinLanguageModels,李高棠
RM-R1:RewardModelingasReasoning,陈修司
伊利诺伊大学香槟分校(UIUC)一年级博士生,导师为季姮教授。本科就读于清华大学,导师为刘知远教授。目前工作集中在大语言模型工具使用与推理,以及人工智能体方向。曾在ACL,EMNLP,COLM,COLING,NAACL,ICLR等多个学术会议发表论文十余篇,一作及共一论文十余篇,谷歌学术引用超700,现担任ACL,EMNLPAreaChair,以及Neurips,AAAI,COLM等多个会议Reviewer。
谷歌学术:https ://scholar. google.com/citations?user=p2bY7oAAAAAJ&hl=en
个人主页:https ://qiancheng0. github.io
论文:ModelingAgent:BridgingLLMsandMathematicalModelingforReal-WorldChallenges
本文提出了一个面向现实世界数学建模问题的新基准测试集ModelingBench,涵盖多个跨学科领域的问题,旨在挑战和评估大语言模型在现实挑战中的推理能力。同时,本文推出了一个多智能体系统ModelingAgent,模拟人类团队协作,通过角色分工和自我进化机制,能够有效解决复杂建模任务。此外,本文构建了一个自动评估框架ModelingJudge,使模型输出可被多角色专家进行仿真评价。实验展现了当下语言模型答案已经能够通过图灵测试,但在专家评价下仍在建模创新性,报告完整性等方面有待提升。
香港中文大学博士四年级,导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等,英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,在国际顶级会议如NeurIPS,ACL,EMNLP,NAACL,COLING等发表30余篇相关论文,其中包括10多篇一作或共一论文,代表工作有Cue-CoT,SAFARI,AppBench,Self-DC,OTC等,谷歌学术引用超800次,NeurIPSAreaChair以及多个国际顶级会议审稿人,NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL2024@SIGHAN最佳论文奖,WWW2024OnlineSafetyPrizeChallenge冠军等多项荣誉,并在SIGIR2024组织第一届ToolLearning研讨会,研究获得过TBF,OSCP等多项研究基金支撑,参与多项香港GRF,RGC等项目。
个人主页:https ://hrwise-nlp. github.io/
论文:TheoryofAgent:FromDefinitiontoBehaviorandObjective
大语言模型(LLMs)已从单纯的文本生成工具,迅速演变为能够在有限人类监督下自主规划和执行复杂任务的智能体(如OpenAI深度研究、Manus和Alita等)。然而,随着这些系统日益具备自主性和代理能力,一些根本性问题仍未解决:什么是智能体?其最优行为是什么?如何在实践中实现这种最优性?在本次分享中,我们试图建立一套系统的智能体理论,将其定义为基于工具使用的决策者。具体而言,我们首先提出一种工具化视角的统一框架,归纳智能体的所有行为归纳为工具调用,并阐述关于知识边界(智能体所知)与决策边界(智能体所行)的三项核心原则。我们提倡真正的自主性取决于决策边界与知识边界的对齐,目标是通过最小化现实世界中的外部动作,高效实现预设目标。最后,我们提供一套可操作、可扩展的路线图,以实现真正自主的智能体,并展望未来在安全性、个性化和通用性等方面的关键挑战与发展方向。
伊利诺伊大学香槟分校(UIUC)计算机科学系博士生,师从韩家炜教授,研究方向为大语言模型(LLMs)、强化学习(RL)与信息检索(IR)。我的研究旨在赋予语言模型更强的推理能力,尤其聚焦于结合外部工具和环境的决策式语言智能系统。我的研究成果发表于NeurIPS、ICLR、ICML、CVPR等顶级会议,并受邀在多个学术会议和工业机构进行分享。我曾获ApplePhDFellowship、NeurIPsTopReviewer等荣誉,并在微软/亚马逊/谷歌/苹果担任研究实习生。
个人主页:https ://peterjin. me/
论文:AnEmpiricalStudyonReinforcementLearningforReasoning-SearchInterleavedLLMAgents
强化学习(ReinforcementLearning,RL)在训练具备复杂推理能力的大型语言模型(LargeLanguageModels,LLMs)方面展现出巨大潜力,推动其在现实世界问题求解中的应用。近年来,RL也被广泛用于构建融合搜索引擎与语言模型推理能力的智能搜索代理,展现出强大的综合检索与推理能力。然而,如何最优设计此类搜索代理仍缺乏系统性理解。特别是关于以下几个关键因素仍有待深入探索:(1)奖励函数的设计,(2)底层语言模型的选择与特性,(3)搜索引擎在强化学习过程中的作用。在本研究中,我们围绕上述问题展开全面实证分析,提出一系列可操作的设计建议。主要发现包括:(1)格式化奖励(formatrewards)对最终性能提升有效,而中间检索奖励的影响有限;(2)LLM的规模与初始化(通用型vs. 专注推理型)显著影响训练效果;(3)搜索引擎的选择在训练动态与模型推理稳健性方面起到关键作用。本工作为构建高效、稳健的LLM搜索代理提供了重要的实证依据和设计指导。
个人主页:https ://gaotangli. github.io/
论文:TamingKnowledgeConflictsinLanguageModels
在本文中,我们针对大语言模型在参数记忆(parametricmemory)与上下文知识(contextualinformation)发生矛盾时的“知识冲突”(knowledgeconflict)现象展开系统性研究。我们首先发现,先前被视为分别承载记忆或上下文的注意力头实际上常常同时编码这两类信息(我们称之为thesuperpositionofparametricmemoryandcontextualinformation)。基于这一洞察,我们提出了无需微调、仅依赖双轮推理即可灵活控制知识来源的轻量级方法JuICE:第一轮自动定位能稳定引导模型行为的关键注意力头;第二轮对其输出进行正负缩放,从而在推理阶段有针对性地放大参数记忆或外部上下文的影响。实验证明,JuICE在6个主流开源模型和11个数据集上,于“强化记忆”和“增强上下文依赖”两类任务均取得一致的SOTA提升;理论分析进一步证明了“记忆-上下文叠加”现象的普遍性以及JuICE的有效性。我们的工作不仅澄清了知识冲突的本质,也为RAG、工具调用等场景中的可靠知识控制提供了简单而实用的解决方案。
伊利诺伊大学香槟分校(UIUC)博士后,导师为季姮教授。本科和博士分别就读于北京大学和加州大学洛杉矶分校(UCLA),导师分别为高军教授和王伟教授。目前研究方向集中在大语言模型的推理和决策,以及智能体工具使用等方向。曾在ACL,EMNLP,NAACL,ICML,ICLR,KDD等多个学术会议中发表论文数十篇,其中一作和共一论文十余篇,谷歌学术引用为1600+。曾经担任NAACL会议tutorial报告人,KDDworkshop组织者,以及NeurIPS,ICML,ICLR,ARR,KDD等多个会议reviewer。
谷歌学术:https ://scholar. google.com/citations?user=JqGAil4AAAAJ
个人主页:https ://xiusic. github.io/
论文:RM-R1:RewardModelingasReasoning
在本文中,我们提出了一类全新的生成式奖励模型——推理奖励模型(ReasoningRewardModels,ReasRMs),将奖励建模重新表述为一个推理任务。我们设计了一个面向推理的训练流程,并据此训练了一组模型RM-R1。RM-R1的核心机制是Chain-of-Rubrics(CoR):模型能够为每个样本自主生成聊天评价标准或数学/编程题的解答,并据此对候选答案进行评估。RM-R1的训练包括两个关键阶段:(1)高质量推理链的蒸馏,(2)结合可验证奖励的强化学习。在多个奖励模型评测基准上,我们的模型在平均表现上达到了当前最优,最高相比更大规模的开源模型(如INF-ORM-Llama3. 1-70B)和专有模型(如GPT-4o)提升达4. 9%。
陈修司,伊利诺伊大学香槟分校(UIUC)博士后,导师为季姮教授。本科和博士分别就读于北京大学和加州大学洛杉矶分校(UCLA),导师分别为高军教授和王伟教授。目前研究方向集中在大语言模型的推理和决策,以及智能体工具使用等方向。曾在ACL,EMNLP,NAACL,ICML,ICLR,KDD等多个学术会议中发表论文数十篇,其中一作和共一论文十余篇,谷歌学术引用为1600+。曾经担任NAACL会议tutorial报告人,KDDworkshop组织者,以及NeurIPS,ICML,ICLR,ARR,KDD等多个会议reviewer。
谷歌学术:https ://scholar. google.com/citations?user=JqGAil4AAAAJ
个人主页:https ://xiusic. github.io/
欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。
编辑:宁钰成中科院博士在读