ICLR 2025:顶尖科学家最关心的 AI 趋势有哪些?丨GAIR Live
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
ScalingLaw走到尽头了吗?扩散模型会成为主流吗?通用Agent还有多久会来?
来源:AI科技评论
作者:郑佳美、梁丙鉴
编辑:马晓宁
自GPT-4发布至今已有两年,但对大语言模型的研究并没有放缓,我们仍处在一个技术进步涌现的时代。Anthropic于2024年11月发布MCP,成为接通AI生态的桥梁,自主的Agent工作流距我们更进一步。GPT-4o、GPT-4.1时隔仅一个月先后发布,实现上下文处理能力八倍提升。在国内,DeepSeek凭借FP8混合精度训练引发行业震动,Manus发布号称全球首款通用Agent,先后在今年年初掀起全民AI热潮。
前沿方向尚未收敛,技术突破纷至沓来。以月为单位的技术迭代下,如何看清AI行业的最新趋势?
2025年4月26日,雷峰网、AI科技评论GAIRLive品牌举办了一场主题为“顶尖科学家聊2025ICLR最近趋势”的线上圆桌沙龙。
圆桌主持人为雷峰网高级主编马晓宁,并邀请了南洋理工大学校长讲席教授,人工智能系主任,人工智能交叉研究院院长安波、浙江大学计算机学院百人计划研究员赵俊博、清华大学AIR研究院助理教授赵昊、埃默里大学计算机系副教授刘菲,共同开启了一场深度对话。
交谈过程中,嘉宾们围绕AI技术加速迭代下,LLM决策系统发展及应用方向、Agent前沿趋势、ScalingLaw的前景、Diffusion及新模型架构的可能性等多个方面发表了独到见解。
从GPT-4开始,更大规模、更高质量的样本使模型智力不断提升,LLM的能力边界逐步拓展。然而,数据枯竭的隐忧也徘徊在ScalingLaw的路径尽头。不久前,DavidSilver和RichardS.Sutton两位顶尖人工智能技术专家联合发表论文,指出从人类数据中提取的知识正迅速接近极限,高质量数据源大多即将耗尽。
ScalingLaw是否已经走到尽头?
对此,赵俊博表示需要对不同领域分别考虑。高质量数据的耗竭已成定局,预训练首当其冲。“人类最高质量的一批token加起来有1015T,DeepSeek-V3用了14.8T。在这15T数据的基础上,如果接受比较高质量的合成数据,再把数据质量的门开得稍微大一点,差不多能扩展到2530T,再往上就很难有更多的数据塞进来了。”
有业内人士向AI科技评论指出,当前大模型及大模型产品发展的技术源动力仍为预训练,它直接关系到模型的智力水平。2530T是预训练数据的上限,也或将成为LLM的天花板。15T,DeepSeek-V3用了14.8T。在这15T数据的基础上,如果接受比较高质量的合成数据,再把数据质量的门开得稍微大一点,我觉得差不多能扩展到25~30T,再往上就很难有更多的数据塞进来了。
当算力和样本不足以筑起走向AGI的通天塔,技术层的创新点会成为AI行业迈向下个台阶的关键一招。
回头再看,刘菲对有限数据的分配提出了追问。“现在大家在做基础模型的时候,基本上是把能够拿到的无论是文本还是其它模态的信息,几乎是一股脑地放在预训练当中。然后在后训练阶段,对于不同的领域,会有专门的数据。其实我们可以重新思考一下这个问题,有没有可能有一种比较好的方法,能够把数据在预训练和后训练中合理地分配,最大化地提高模型能力。”
任务创新同样富于潜力。Predictthenextword一直是训练大语言模型的出发点,以完成这个任务为导向,模型性能实现了速度、指令遵循、推理能力等方面的全方位提升。刘菲提出:“现在我们能不能通过在任务上的创新,提出新的task,帮助我们提高模型的后训练效果,或者模型在某一个领域需要的特定能力。”
以下是此次圆桌讨论的精彩分享,AI科技评论进行了不改原意的编辑整理:
1
技术迭代,AI“狂飙”
AI科技评论:这次我们沙龙的主题是顶尖科学家聊2025ICLR的最新趋势。我们请到了四位嘉宾,分别是浙江大学计算机学院百人计划研究员赵俊博、南洋理工学院校长、人工智能系主任安波、埃默里大学计算机系副教授刘菲、清华大学AIR研究院助理教授、光轮智能首席科学家、智源学者赵昊。今天把四位老师请过来,希望可以跟大家分享一下我们在ICLR有什么样的见闻,以及对于接下来人工智能走向和趋势的预测。
我想问四位老师的第一个问题是,大家觉得今年的ICLR跟往年比有什么不一样的地方?
赵俊博:我上一次来ICLR已经是很多年前了。这个会其实是从我们NYU的实验室splitoff出去的。14年刚开始的时候也就几百篇论文,没想十一年过去变化会这么大。所以我今年最直接的感受就是人多、论文多、会场大。当年的poster要讲四五个小时,因为当时其实没有那么多的poster,但现在的poster已经压缩到了两个小时的极限。
安波:今年更大一些,有很多来自中国的老师和同学,内容也特别多。今年组织注册那个地方要排一个小时才能领到这个牌子,另外会场显得更加拥挤,通道也比较窄。我个人觉得这个会太大了,当然也证明这个会的质量很好,来了很多优秀的人。
刘菲:我去年参加了在维也纳的ICLR会议,想把去年和今年的做一个对比。我感觉今年的论文在深度和广度方面都是非常棒的,首先我看到了很多非常好的LLM潜在的落地相关的应用。另外一个我注意到的现象是,今年有非常多金融领域的公司作为我们的赞助商。所以我个人也很期待,大模型将来在金融领域能有什么样的突破性的发展。
赵昊:我前年去了基加利(卢旺达首都Kigali,编者注)那场,给我印象特别好。当时也是疫情后第一次ICLR,能感觉到无论中国人还是外国人都很兴奋。两年以后再来,我觉得很意外的就是赞助商怎么这么多。因为最近几次去CV的会议,赞助商的数量好像都有些变少。
AI科技评论:赵老师您今年带了几篇论文过来?
赵昊:今年就带了一篇论文,是做ConditionalImageGeneration的。我的研究方法论是我们生成一些数据,然后用这些数据去训练更好的感知和决策模型。我们用rewardmodeling的方式,用diffusion从各种控制信号生成图片,让它做得更好。
AI科技评论:四位老师今年在会场上肯定看到了一些论文、演讲或者poster。这些内容里有没有令你们印象深刻的、有趣的、好玩的东西,可以跟我们分享一下?
赵昊:那我就讲一讲我们圈子里今年一些有影响力的paper。第一个就是今年会上的最高分IClight,也是比较少见地拿到了满分。这个工作非常有意思,它在diffusion里把光照做得很好。
一般大家会认为无论imagediffusion还是videodiffusion,生成出来的东西都不可控。目前的生成在几何和物理方面表现都不好,但IClight居然能把光照做好,这件事是非常surprising的。同时它也是一个很好的轮子,我和很多朋友最近都在用IClight做光照控制的工作。在CVML领域,真正有影响力的paper是能帮助别人的paper。
我觉得IClight有影响力,最大的原因是它超前于时代。我经常跟我的学生们说,我最钦佩的科学家是能发现超越时代的、带着艺术性和灵感的东西。最典型的就是孟德尔,他在DNA双螺旋结构被发现之前300年,就能够用设计巧妙的实验发现豌豆育种出现不同性状的比例是3:1。可能在300年、100年、50年之后,大家看这个技术也就是那么回事,但他们就是能超前于时代把它做出来,而且还非常有实用价值,我特别喜欢这样的工作。所以在3Dsceneunderstandingandsynthesis这个领域,我今年首推IClight这篇满分论文。
刘菲:我自己比较感兴趣的方向是基于大语言模型的决策系统、规划系统和推理系统。决策系统是一个蛮重要的方向,现在越来越多的用户开始问大语言模型一些复杂问题。
我可以举一个最简单的例子,比如买咖啡机有非常多的选择,可以买一个非常便宜的咖啡机做drippingcoffee,也可以买一个高档一些的。大语言模型根据用户需求进行辅助决策,这就是一个非常简单的决策系统。但同时也会有一些更为复杂的决策系统,比如家里的小孩升学,在择校的时候会有非常多因素需要考虑,包括学校的地理位置、师资情况、排名、学生自身更适合哪种学校。很多时候大家只是把这些信息直接传达给大语言模型,它当然会给一个答案,但是我们没有办法验证这个决策是不是最合适的。针对单一事件做单一的决策,传统上我们基于分类器或者决策树,配合训练数据,大语言模型已经可以很好地进行辅助决策,但复杂的决策系统目前仍然是黑盒状态。
一个我们比较感兴趣的方向是如何把这两种系统集合在一起。基于传统的机器学习得到的分类器非常robust,但是只能应用于特定的任务上,而基于大语言模型的决策系统可以达到特别高的灵活性,我们想把这两种决策方式结合在一起。我们有一个系统叫做Define,主要是在金融领域针对月报或者年报,给出投资建议。
还有一个我们特别感兴趣的方向是sequentialdecisionmaking,它应用于我们需要做一连串决定的场景。我举个简单的例子,如果我想制定一份新加坡旅行计划,那我首先要决定买什么时间的机票、宾馆订在什么地方。同时我要参加ICLR,每天都会有具体的行程安排。把这一连串决策放在一起,需要一个非常复杂的系统。这个决策系统需要optimizegoal,可能是多找时间和大家交流,也可能是控制有限的预算,这样它才能做出最适合我的决策。说到这个,安老师有一篇paper叫AgentStudio,我特别喜欢,也希望能够听安老师讲一下这个工作的细节。
安波:谢谢刘老师。这项工作的技术性不是特别强,我们做了一个能够提供很多benchmark场景的工具,并做完了整个pipeline,可以让大家更容易地开发Agent。
我个人这两年更关注推理RL怎么和大语言模型结合在一起,以及Agent的研究。大语言模型这个概念已经出现好多年了,现在应该到了我们开始思考它落地的时刻,所以我会特别关注它在垂直领域落地方面的事情。我看了一些session,这方面的工作相对前两年还蛮多的。
刘老师刚才讲到决策系统,这也是我们所关心的。这方面有很多挑战,比如多模态的推理。4月份新加坡一座房子失火,一人死亡,还有20多人受伤。我们把几张照片发给GPT,问他能不能做一份现场处置应对的规划。我们发现GPT的规划里有很多问题,体现出它的推理能力不够。比如照片上明显显示很多小孩子受伤了,但是它推荐伤者去中央医院,实际上新加坡有一个很好的儿科医院叫KKH,离火灾场景只有3公里。
让大模型从视频里检索出必要的信息,基于这些情况进行复杂推理,这是我们未来特别想做的事情。我们希望它能规划消防人员怎么进场,需要它考虑现场视频、图片、报案的音频,再把起火大楼的平面图结合到决策中。怎么让这些技术真正地解决现实问题,还有很长的路要走。这是很有挑战的事情,但是有很多真实的应用需要。
赵俊博:我接着刚才安老师的话说。post-training的scaling是在去年九月份左右,从GPT-o1开始出现的,而ICLR的截稿日期是10月2号,所以基本上在这次的poster里很难看到跟后训练或者RL相关的工作。
这个年代发展太快了。去年10月ICLR截稿,现在文章才正式面世,但其实从去年10月到现在已经发生了太多事,包括GPT-4.5、MCP、GPT-4o生成与理解统一的非常炫目的生成效果、国内的Deepseek等等。当年ICLR出现其实是为了缩短文章面世的周期,但是现在这个周期是不是还是赶不上形势的变化,是不是需要把这些conference的形式再重新思考一下。
安波:现在整个pipeline还是需要三个月甚至以上,也许可以再缩短一些。
AI科技评论:我们也感觉这大半年的时间天翻地覆。赵老师你在去年九月份的时候,当时设想今年年中可能会有哪些变化?
赵俊博:我觉得有些事肯定变了,但有些事其实也没变。我对团队说的一句话就是,我们现在做很多东西都是拍脑袋。比如安老师刚才说的这个场景,虽然它很难,但其实有两种路径解决这个问题。第一种路径是multi-agent,比如可以专门做一个Agent解决消防车的调用,最后整个决策体系中穿插着各种Agent。但同时有些其他的问题可以依靠模型的底层能力直接解决。
我们可以看一下LangChain的发展,他们一开始面向multi-agent编排的技术做了很多东西,但关键是现在的basemodel太强大了,导致这些东西好像有一些就没有意义了。这就涉及到一个问题,有些事两年之内basemodel能不能解决掉。如果不能就坚持投入,如果能解决,那我们是不是可以把这方面投入稍微退一步?关键是基于现在这种非常疯狂的变化,判别在两年内能不能解决,我感觉比较难做。
2
ScalingLaw走到尽头了吗
AI科技评论:最近对ScalingLaw的讨论非常多。我也想请教一下四位老师的答案,ScalingLaw到底有没有走到尽头?
赵俊博:我觉得要拆领域来看。首先从Pre-train的角度来说,我认为已经到头了,因为确实没有数据了。人类最高质量的一批token加起来有10
Post-train方面,大家现在还是大幅依靠数学和代码这种可校验的数据。那么关键的问题是,物理、法律、心理等其他学科的数据能不能用,以及Rewardmodel或者ProcessRewardModel这些相关技术能不能继续发展。或者还有没有新类型数据,比如说股票、游戏交互这些数据能不能拿来训练大模型。
其它结构上,DiffusionLanguageModel暂时没有跑出ScalingLaw,我们现在看到7B、8B有一些效果,但是非自回归的新方法还是值得期待的。
刚才赵老师谈到了多智能体,有一个思考是有没有Multi-AgentScalingLaw,我感觉这个也不存在。我是做传统多智能体的,我们发现并不见得智能体的数量增加,性能就会好,因为数量的增加会导致很多协调、通信方面的问题。我个人觉得学术界的人没有必要执着于研究ScalingLaw是不是要走到头了,因为这个问题已经吵了很多年。
赵俊博:有没有ScalingLaw都可以去做research,这没什么直接关系。
刘菲:我非常同意安老师和俊博老师的想法,这里我可以再补充两点。
第一点我认为可能有一个方向还可以再深入挖掘一下,就是在谈到数据的时候,什么样的数据应该放在预训练当中,什么样的数据应该放在后训练当中。现在大家在做基础模型的时候,基本上是把能够拿到的无论是文本还是其它模态的信息,几乎是一股脑地放在预训练当中。然后在后训练阶段,对于不同的领域,会有专门的数据。其实我们可以重新思考一下这个问题,有没有可能有一种比较好的方法,能够把数据在预训练和后训练中合理地分配,最大化地提高模型能力。
另外我对ReverseScalingLaw也很感兴趣,我想补充的第二个方向是,在数据一定的情况下如何提高模型的能力,尤其是模型在具体任务上的能力。我们训练大模型的初衷是predictthenextword,这个任务本身并不是很重要,其实是通过这样一个简单的任务达到训练模型参数的效果。那么现在我们能不能通过在任务上的创新,提出新的task,帮助我们提高模型的后训练效果,或者模型在某一个领域需要的特定能力。我认为这两个方向,也许可以再深入挖掘一下。
像刚刚两位老师提到过的,大部分大家能够获得的高质量数据几乎已经被用掉了。这两年大语言模型持续不断地生成新的文本、图片,短视频,以后我们能够拿到的数据,会有很多是模型生成出来的。如果我们不加思考地直接用这些数据训练大语言模型,我不太确定对于模型究竟有没有质的提高。
安波:我稍微补充一下。我们NTU前两天邀请了一位EPFL的老师,他就研究这个问题。未来的数据全部是大模型产生的,一代一代地迭代下去,这个世界会变成什么样?他做了一些实验,因为是模拟所以每一代的间隔都要短得多,但是他觉得这将来会对人类的价值观,甚至一切都带来很大的变化。
赵昊:在Vision领域,大家比较痛心疾首的是我们还没有发现ScalingLaw。之前我们做了很久自监督的表征学习,也是想复现NLP领域的成功,但普遍认为结果不是特别成功。很多人认为这是信息密度的原因。Language的信息密度更高,更容易出现ScalingLaw,而vision需要压缩信息。
我觉得VLA有可能在未来一段时间内看到ScalingLaw,这是非常promising的一件事情。我们现在做VLA,一般是用遥操作数据做动作,做完以后复原,再重新采集数据。其实每一条数据都是差不多的,但是就用这些差不多的数据训练,50条的时候是不work的,200条的时候一般刚开始work,500条数据的时候就非常work了。我也不知道为什么,但感觉很像GPT出来的时候NLP领域那种模模糊糊的感觉。我觉得随着这些数据积累得越来越多,也许未来12个月、24个月、36个月,突然我们的VLA就能做出非常灵巧的东西。
AI科技评论:刚才赵老师提到的一个问题我很好奇。您说我们有很多行业性的数据,其实现在还没有办法用来训练,是这样吗?
赵俊博:至少在今天,通过各种技术报告我们可以看到,大家后训练的主体数据还是数学和code,这是因为我们需要一个非常明确的reward计算公式。数学是比较容易算reward的,coding可以跑个OJ,也有比较明确的reward计算方式,这些肯定是最高级的数据。次一级的数据可能需要一个model,不管叫它judgemodel还是rewardmodel,总之得对模型给出的结果和实际的正确答案进行比较,这对数据的要求还是挺高的。比如你算出来答案是5,模型的输出是5,那5是不是等于5,这就是一个reward。我觉得强化学习在大语言模型上面的空间还是比较大的,后面还是有不少事可以做。
赵俊博:我本来想回答这两个不是一个意思,但我后来想,SFT好像也在posttraining的范畴里。我不确定现在是不是还在,大家的术语一直在穿插。
3
模型架构尚未收敛,Diffusion未来可期
AI科技评论:我们最近一直比较关心一个问题,扩散模型和回自回归架构在生成任务上各自有什么优劣?
赵俊博:我个人比较看好Diffusion。我说的不是直接用一个DiffusionModel生成图像,我觉得Diffusion是个很大的概念,它可以diffuse很多东西。
比如清华大学朱军老师做的RDT,整个机器可以用Diffusion在坐标空间的几个目标点上跑扩散过程。还有谢赛宁他们做的MetaQuery,它可以理解图像和文本,同时外接了一个DiffusionModel,通过中间一些简单的空间上的连接,可以把Diffusion吐出去再去生成。这就是一个很典型的autoregressive和DiffusionModel的整合,去完成所谓的生成、理解的统一。
安波:这个方向其实我们也没有做太多工作,但我感觉可能并不是那么容易切换过去。如果真的非常厉害的话,大公司早就纷纷转到那个赛道上去了。而且关于能不能取代Transformer,我觉得可能性也不大。
AI科技评论:对于这一点,刘菲老师怎么看?
刘菲:我们在diffusionmodel上的探索也不是很多,但我比较认同俊博刚刚的观点。Diffusionmodel在图像生成,或者在多模态任务上,确实展现了比较突出的优势。
我主要是做自然语言处理方向的,所以在这个领域,Autoregressivemodel仍然是主流。原因在于,无论是文本数据还是一些时间序列数据,本身都具有很强的序列特性,在这种情况下我们通常更倾向于使用Autoregressivemodel。当然它也有自己的问题,比如在推理(inference)阶段,很难做到并行处理。针对这一问题,目前有几个可以考虑的方向,一个是刚刚俊博提到的,将diffusionmodel和Autoregressivemodel结合起来。
AI科技评论:所以说,接下来大家很可能会探索其他架构?
刘菲:对,是这样的。
赵昊:从我的角度来看,我觉得这个问题可以分成两块。一块是vision本身要不要和language结合的问题。如果只做vision,比如视频或图像生成的话,我们其实特别关注推理速度,所以未来一两年内,纯vision的任务应该会慢慢转向AR(Auto-Regressive)思路,因为在速度上有明显优势。但圈子里还是会有很多做多模态大模型的人,他们其实并不清楚该怎么和language更好地结合。比如多尺度的token如何映射到语言空间,目前谁也说不清楚。所以我觉得,未来的发展方向是需要把这两块问题区分开来看待。
4
Agent的机遇和挑战
AI科技评论:最近大家对Agent也很关注,四位老师有什么想法吗?
赵昊:我自己做Agent的工作不是特别多,但最近找到了一个我认为非常有趣的方向,就是把区块链技术和agent通讯结合起来。我们目前正在机器人系统中,探索基于Agent信息交互方式,搭建一个可信的加密协同框架,我觉得这个领域非常值得深入。
区块链的特点是大家以分布式的方式共同计算,没有任何一个节点能掌握全局信息,但每个节点都参与了链的运作。区块链里有一个核心的数据结构叫Merkle-Tree,它的特点是每个叶子节点上的计算结果都可以被有效验证,并最终在根节点完成整体计算,但叶子节点本身并不知道整体发生了什么。对应到agent系统中,就是每个agent可以参与到协作中,通过通信协议去执行任务,并最终得出结果,但每个agent本身并不知道整体的任务全貌。在机器人领域,这种特性非常有用。
安波:那最终你们想解决什么问题?优化的目标是什么?
赵昊:想做的是一个系统,让agent可以协同完成任务,而且系统具有很强的抗破坏性。
AI科技评论:很新颖的思路!刘菲老师您怎么看?
刘菲:我觉得赵老师提到的将agent和区块链结合的方向,确实非常新颖,非常值得深入挖掘。我这边在agent方向上也有两个代表性的工作。第一个是HARBOR[1],这是一个multi-agentsystem。我们设想未来,每个人都可以拥有一个专属于自己的personalizedLLMagent,能够深度理解你的兴趣爱好,根据个性化需求,帮助你做出更合适的决策。
在这样的设定下,multi-agentsystem既可能是合作关系,也可能是竞争关系。我举个例子,比如大家在申请工作时,可能都会用到一些大语言模型或者agent帮助修改简历、优化表达。如果只有一个职位,所有申请者之间就构成了竞争。在这种场景下,我们很感兴趣的问题是:在multi-agentsystem中,如何让agent同时考虑个人偏好,并帮助用户做出最具竞争力的决策。
另一个工作是PlanGenLLMs[2],一篇综述性论文。我们对现有的planningsystem做了系统性的梳理和研究。因为现在各个planning系统在评测时缺乏统一标准,数据集不同,定义的agenticcapabilities也各不相同,所以我们希望能提出一个更统一的评估方法,对各种Agenticsystem进行更科学的评估和比较。
AI科技评论:这种系统会去考察agent的哪些方向?
刘菲:这是一个非常好的问题。我举几个例子,比如我们来到新加坡开会,希望让Agent帮我做一个出行计划,但它最终提供的方案可能并不是用户真正喜欢的,所以这就是其中一个问题。还有一种情况是,比如我的预算有限,但可以接受稍微超出的方案,或者有一些截止日期,必须严格遵守的。这种情况下,Agent系统需要在多目标优化环境中,深刻理解哪些目标必须严格执行,哪些目标可以有一定的灵活性。这是我们评判Agent系统的一个重要方向。
另一个方向是我个人比较感兴趣的。因为未来很多Agenticsystem会分布到家居环境中,比如冰箱、手机等这类edgedevices,它们无法直接调用大模型,因为资源受限。所以未来的一个问题就是,如何在小模型上也能实现较强的agenticcapabilities。
AI科技评论:那可以理解为像冰箱、手机这种设备上,会有自己的端侧小模型?
刘菲:是的,可能在端侧有一个小模型,处理一些本地任务,同时后台由大模型提供支持。一些请求可以直接在小模型上完成,另一些则发送到大模型上处理。
AI科技评论:安波老师,您认为“小模型+Agent”是一个趋势吗?
安波:我认为是的。现在大模型的决策能力都还很弱,更不要说小模型了。总体来看,大语言模型在处理决策问题时,基本上是通过imitationlearning,即模仿已有数据。而这也解释了为什么inference过程如此关键。我认为未来无论是大模型还是小模型,要完成复杂决策任务,都需要引入RL(强化学习),因为RL能通过与环境的交互,不断提升模型的能力。
其实刚才两位老师提到的方向,我也有研究。在做大语言模型之前,我一直在做multi-agentsystem的研究。在这个领域里,communication(通讯)是一种方式,但更关键的是如何实现dynamic协作优化,尤其是在机器人领域,每个agent如何在动态环境中高效协同,这是最困难的部分。而且刘菲老师提到的第一个方向,我认为确实是刚需,只不过这里面还有很多算法上的挑战,比如如何快速找到最优解。
AI科技评论:安波老师,您从什么时候开始做multi-agentsystem的?
安波:我从上学期间就开始做了。稍微科普一下:这个领域起源于上世纪80年代,早期主要是军方为了建传感器网络。因为当时单个传感器能力弱,比如确定一辆车的位置,需要三个传感器协同定位。这就是最早的sensornetwork。
后来,机器人比赛中也需要分布式协作而非集中式控制,这种场景中,Agent完全是合作的。之后,随着互联网兴起,计算博弈论出现了;再后来,传统的distributedplanning难以扩展,于是distributedRL被提出来了。到deeplearning阶段,这一切又被进一步deep化。直到今天,随着大语言模型的出现,AIAgent的概念再次被提出,但实际上,早期的multi-agentsystem已经包含了很多基础思想。
AI科技评论:那您怎么看RL和Agent的结合呢?
安波:我认为这是未来真正落地决策型大模型的关键环节。现阶段我们还能通过充分挖掘大语言模型现有的能力,加一些工具链去完成任务。但如果要让它真正运行在现实世界中,就必须要和环境有真实交互。我们现在也在做一些相关探索,比如在tokenlevel上做exploration(探索),这是一个巨大的机会领域。所以,把RL和大语言模型结合起来,去解决复杂决策问题,是非常重要的方向。
AI科技评论:俊博老师最近有关注到一些相关的公司吗?
赵俊博:这种公司现在很多了,我觉得今年后面还会越来越多。比如前段时间Manus,虽然功能上还有很多局限,但在交互体验上确实让人眼前一亮。
赵昊:写文献综述很好用。
赵俊博:这个领域我觉得肯定是有泡沫的。我也很同意安波老师刚才的看法,大模型本身的决策能力还比较弱。但不管怎么说,大家都在努力往这个方向推进。我相信今年Agent领域的版图还会进一步扩大。
AI科技评论:安波老师,您最近有用过市面上的Agent产品吗?
安波:我用得不多,但有关注到一些,像Manus的评价我也看了很多。总体来说,它还是有不少值得学习的地方。
AI科技评论:您觉得通用Agent是未来可能实现的目标吗?
安波:我认为肯定是AI发展的方向。人类对AI的需求不只是聊天式交互,而是希望AI能帮我们完成特别复杂的任务,这就是Agent的本质。但这条路非常难。即便今天AI在某些数学领域已有突破,我觉得要实现真正的通用Agent,十年时间也很难完成。
AI科技评论:刘菲老师,您目前的研究有没有一些能实用化的Agent项目呢?
刘菲:虽然我们正在做Multi-agentsystem和一些planning相关的算法开发,但也注意到,尽管agent很火,真正能落地的项目其实并不多。
这里面主要有两个潜在问题。第一个是鲁棒性问题。很多agenticsystem最后是以任务成功率作为评估标准,但目前大部分系统的成功率远达不到90%-95%,这会在落地应用时带来很多困难。
第二个问题是安全性挑战。比如,模型生成的内容中可能包含幻觉信息,尤其是在代码生成的场景下问题更突出。正常情况下,如果agent正确地生成代码,是非常好的;但如果因为幻觉问题,生成了不存在的libraryname,或者恶意用户提前注册了这些名字并植入了恶意代码,那后果就很严重了。当然,这只是当前我们已知的一些问题,未来随着应用的深入,肯定还会遇到更多新的挑战。所以,安全性问题必须高度重视。
赵昊:我听完刘菲老师讲的,觉得以后如果每个人都有自己的personalagent,大家为了抢票、抢资源,不就变成了agent之间的战争了吗?如果以后要买一张机票,得付费买一个更厉害的agent,感觉还挺可怕的。
AI科技评论:竞价排名应用到个人生活里了。
赵昊:对,到那时候,要么自己处理所有复杂事务,要么就得付钱用好一点的agent。这种趋势我觉得很快就会出现。
AI科技评论:如果从大模型智力提升的角度来看,大家能预测一下,未来有哪些技术可能帮助模型更聪明?下一个阶段的研究趋势会是什么?
赵昊:我目前的研究方向是生成更可控的内容,进而训练出更聪明的机器人。这也是我认为提升AI智力的重要方式。但目前机器人的问题在于,它们在物理世界的灵敏性还远远不够。机器人领域不仅技术复杂,还涉及产业链,比如供应链,所以发展速度不像纯软件那样快。不过,随着资金和关注度的增加,机器人技术肯定会越来越快进步。
AI科技评论:那你觉得,什么样的机器人才算是真正聪明的?
赵昊:其实现在机器人借助大语言模型的能力,已经挺聪明了。最大的问题不是智力,而是灵敏性。也就是说,当前机器人的“小脑”还不够发达,不够敏捷。
AI科技评论:刘菲老师,您觉得该如何进一步提升大模型的智力?
刘菲:我个人认为,基础模型(pretrainingmodel)仍然是最核心的。最初一两年里大家都在拼基础模型,最近半年虽然评测报告少了,但基础模型的重要性并没有下降。如果有一个非常稳健的基础模型,在此基础上进行长上下文扩展、强化学习(RL)微调、多模态能力扩展等,都会变得更加顺畅。而基础模型质量不好,后续的问题会层出不穷,不仅是幻觉问题。
当然,好的基础模型并不一定非得超级大。其实大概70B参数的模型,就可以非常好用了。虽然更大的模型可能有额外优势,但“越大越好”并不总是成立的。所以,我认为未来一个非常重要的方向,就是在适中的模型规模上,把预训练做到极致。
第二个方向,是未来半年到一年内,关于模型安全性的研究,无论是评测体系还是技术本身,都会成为重点。
最后,我也很期待大模型在交叉学科领域,比如AIforScience、AIforEducation、AIforFinance,能够带来真正突破性的进展。
AI科技评论:安波老师,您觉得呢?
安波:我这边还是更关注决策相关的问题,无论是在inference阶段,还是在multi-agent阶段。我认为这确实是一件非常难的事情。完成一个具体任务是一方面,但如果希望进一步提升系统的鲁棒性,特别是在应用到一些此前数据未覆盖到的场景时,基本上是非常困难的。整体来说,我们还有很长的路要走。
刘菲:我非常同意安老师的观点。未来与环境的真实交互,确实是agenticsystem中非常重要的一环。
AI科技评论:俊博老师,您的看法呢?
赵俊博:我的观点一半乐观一半悲观。乐观的地方是,LLM的post-training这一条路径已经逐渐被摸索清楚了,而且今年之内依然有不少可以深挖的空间。比如说,数据目前还没有被完全穷尽,还有很多新型的数据尚未真正铺开应用。同时,算法和基础设施(Infra)方面也仍有比较大的提升空间。当然,长文本问题涉及到的一些结构体系改进,也是接下来的挑战之一。不过整体来看,一切变化发展都很快,所以最终要到今年年底,我们才能真正看到会发生什么样的新变化。
AI科技评论:好的,那我们就静静期待,今年年底还会有哪些新的突破出现。也非常感谢四位老师今天和我们分享了这么多宝贵的内容,谢谢大家!
参考文档:
1.https ://arxiv.org/pdf/2502.12149
2.https ://arxiv.org/pdf/2502.11221
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https ://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx.zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
壳牌:2025能源安全远景报告:能源与人工智能(57页)
盖洛普&牛津幸福研究中心:2025年世界幸福报告(260页)
Schwab:2025未来共生:以集体社会创新破解重大社会挑战研究报告(36页)
IMD:2024年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214页)
DS系列专题:DeepSeek技术溯源及前沿探索,50页ppt
联合国人居署:2024全球城市负责任人工智能评估报告:利用AI构建以人为本的智慧城市(86页)
TechUK:2025全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52页)
NAVEXGlobal:2024年十大风险与合规趋势报告(42页)
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma:2024年全球生物制药行业展望报告:增长驱动力分析(29页)
【AAAI2025教程】基础模型与具身智能体的交汇,350页ppt
Tracxn:2025全球飞行汽车行业市场研究报告(45页)
谷歌:2024人工智能短跑选手(AISprinters):捕捉新兴市场AI经济机遇报告(39页)
【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心:2025CSET对美国人工智能行动计划的建议(18页)
罗兰贝格:2024人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11页)
兰德公司:2025从研究到现实:NHS的研究和创新是实现十年计划的关键报告(209页)
康桥汇世(CambridgeAssociates):2025年全球经济展望报告(44页)
国际能源署:2025迈向核能新时代
麦肯锡:人工智能现状,组织如何重塑自身以获取价值
威立(Wiley):2025全球科研人员人工智能研究报告(38页)
牛津经济研究院:2025TikTok对美国就业的量化影响研究报告:470万岗位(14页)
国际能源署(IEA):能效2024研究报告(127页)
Workday:2025发挥人类潜能:人工智能(AI)技能革命研究报告(20页)
CertiK:Hack3D:2024年Web3.0安全报告(28页)
世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告
迈向推理时代:大型语言模型的长链推理研究综述
波士顿咨询:2025亚太地区生成式AI的崛起研究报告:从技术追赶者到全球领导者的跨越(15页)
安联(Allianz):2025新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33页)
IMT:2025具身智能(EmbodiedAI)概念、核心要素及未来进展:趋势与挑战研究报告(25页)
IEEE:2025具身智能(EmbodiedAI)综述:从模拟器到研究任务的调查分析报告(15页)
CCAV:2025当AI接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124页)
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》
全国机器人标准化技术委员会:人形机器人标准化白皮书(2024版)(96页)
美国国家科学委员会(NSB):2024年研究与发展-美国趋势及国际比较(51页)
艾昆纬(IQVIA):2025骨科手术机器人技术的崛起白皮书:创新及未来方向(17页)
NPL&Beauhurst:2025英国量子产业洞察报告:私人和公共投资的作用(25页)
IEAPVPS:2024光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65页)
AGI智能时代:2025让DeepSeek更有趣更有深度的思考研究分析报告(24页)
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37页)
华为:2025鸿蒙生态应用开发白皮书(133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟(QuIC):2024年全球量子技术专利态势分析白皮书(34页)
美国能源部:2021超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60页)
罗马大学:2025超级高铁(Hyperloop):第五种新型交通方式-技术研发进展、优势及局限性研究报告(72页)
兰德公司:2025灾难性网络风险保险研究报告:市场趋势与政策选择(93页)
GTI:2024先进感知技术白皮书(36页)
AAAI:2025人工智能研究的未来报告:17大关键议题(88页)
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信:2025全球洪水风险研究报告:现状、趋势及应对措施(22页)
兰德公司:迈向人工智能治理研究报告:2024EqualAI峰会洞察及建议(19页)
哈佛商业评论:2025人工智能时代下的现代软件开发实践报告(12页)
德安华:全球航空航天、国防及政府服务研究报告:2024年回顾及2025年展望(27页)
奥雅纳:2024塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28页)
HSOAC:2025美国新兴技术与风险评估报告:太空领域和关键基础设施(24页)
Dealroom:2025欧洲经济与科技创新发展态势、挑战及策略研究报告(76页)
《无人机辅助的天空地一体化网络:学习算法技术综述》
谷歌云(GoogleCloud):2025年AI商业趋势白皮书(49页)
《新兴技术与风险分析:太空领域与关键基础设施》最新报告
150页!《DeepSeek大模型生态报告》
军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态-250309(40页)
真格基金:2024美国独角兽观察报告(56页)
璞跃(PlugandPlay):2025未来商业研究报告:六大趋势分析(67页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界:多模态生成模型的统一综述
中国信息协会低空经济分会:低空经济发展报告(2024-2025)(117页)
浙江大学:2025语言解码双生花:人类经验与AI算法的镜像之旅(42页)
人形机器人行业:由“外”到“内”智能革命-250306(51页)
大成:2025年全球人工智能趋势报告:关键法律问题(28页)
北京大学:2025年DeepSeek原理和落地应用报告(57页)
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用
电子行业:从柔性传感到人形机器人触觉革命-250226(35页)
RT轨道交通:2024年中国城市轨道交通市场数据报告(188页)
FastMoss:2024年度TikTok生态发展白皮书(122页)
CheckPoint:2025年网络安全报告-主要威胁、新兴趋势和CISO建议(57页)
【AAAI2025教程】评估大型语言模型:挑战与方法,199页ppt
《21世纪美国的主导地位:核聚变》最新报告
沃尔特基金会(VoltaFoundation):2024年全球电池行业年度报告(518页)
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
国际科学理事会:2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告(英文版)(118页)
光子盒:2025全球量子计算产业发展展望报告(184页)
奥纬论坛:2025塑造未来的城市研究报告:全球1500个城市的商业吸引力指数排名(124页)
FutureMatters:2024新兴技术与经济韧性:日本未来发展路径前瞻报告(17页)
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性:从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用:近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心:2024美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28页)
空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理-250224(33页)
Gartner:2025网络安全中的AI:明确战略方向研究报告(16页)
北京大学:2025年DeepSeek系列报告-提示词工程和落地场景(86页)
北京大学:2025年DeepSeek系列报告-DeepSeek与AIGC应用(99页)
CIC工信安全:2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42页)
中科闻歌:2025年人工智能技术发展与应用探索报告(61页)
AGI智能时代:2025年Grok-3大模型:技术突破与未来展望报告(28页)
上下滑动查看更多