ICLR 2025：顶尖科学家最关心的 AI 趋势有哪些？丨GAIR Live

发布日期: 2025-04-28

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

ScalingLaw走到尽头了吗？扩散模型会成为主流吗？通用Agent还有多久会来？
来源：AI科技评论
作者：郑佳美、梁丙鉴
编辑：马晓宁
自GPT-4发布至今已有两年，但对大语言模型的研究并没有放缓，我们仍处在一个技术进步涌现的时代。Anthropic于2024年11月发布MCP，成为接通AI生态的桥梁，自主的Agent工作流距我们更进一步。GPT-4o、GPT-4.1时隔仅一个月先后发布，实现上下文处理能力八倍提升。在国内，DeepSeek凭借FP8混合精度训练引发行业震动，Manus发布号称全球首款通用Agent，先后在今年年初掀起全民AI热潮。
前沿方向尚未收敛，技术突破纷至沓来。以月为单位的技术迭代下，如何看清AI行业的最新趋势？
2025年4月26日，雷峰网、AI科技评论GAIRLive品牌举办了一场主题为“顶尖科学家聊2025ICLR最近趋势”的线上圆桌沙龙。
圆桌主持人为雷峰网高级主编马晓宁，并邀请了南洋理工大学校长讲席教授，人工智能系主任，人工智能交叉研究院院长安波、浙江大学计算机学院百人计划研究员赵俊博、清华大学AIR研究院助理教授赵昊、埃默里大学计算机系副教授刘菲，共同开启了一场深度对话。
交谈过程中，嘉宾们围绕AI技术加速迭代下，LLM决策系统发展及应用方向、Agent前沿趋势、ScalingLaw的前景、Diffusion及新模型架构的可能性等多个方面发表了独到见解。
从GPT-4开始，更大规模、更高质量的样本使模型智力不断提升，LLM的能力边界逐步拓展。然而，数据枯竭的隐忧也徘徊在ScalingLaw的路径尽头。不久前，DavidSilver和RichardS.Sutton两位顶尖人工智能技术专家联合发表论文，指出从人类数据中提取的知识正迅速接近极限，高质量数据源大多即将耗尽。
ScalingLaw是否已经走到尽头？
对此，赵俊博表示需要对不同领域分别考虑。高质量数据的耗竭已成定局，预训练首当其冲。“人类最高质量的一批token加起来有10~~15T，DeepSeek-V3用了14.8T。在这15T数据的基础上，如果接受比较高质量的合成数据，再把数据质量的门开得稍微大一点，差不多能扩展到25~~30T，再往上就很难有更多的数据塞进来了。”
有业内人士向AI科技评论指出，当前大模型及大模型产品发展的技术源动力仍为预训练，它直接关系到模型的智力水平。2530T是预训练数据的上限，也或将成为LLM的天花板。
当算力和样本不足以筑起走向AGI的通天塔，技术层的创新点会成为AI行业迈向下个台阶的关键一招。
回头再看，刘菲对有限数据的分配提出了追问。“现在大家在做基础模型的时候，基本上是把能够拿到的无论是文本还是其它模态的信息，几乎是一股脑地放在预训练当中。然后在后训练阶段，对于不同的领域，会有专门的数据。其实我们可以重新思考一下这个问题，有没有可能有一种比较好的方法，能够把数据在预训练和后训练中合理地分配，最大化地提高模型能力。”
任务创新同样富于潜力。Predictthenextword一直是训练大语言模型的出发点，以完成这个任务为导向，模型性能实现了速度、指令遵循、推理能力等方面的全方位提升。刘菲提出：“现在我们能不能通过在任务上的创新，提出新的task，帮助我们提高模型的后训练效果，或者模型在某一个领域需要的特定能力。”
以下是此次圆桌讨论的精彩分享，AI科技评论进行了不改原意的编辑整理：
1
技术迭代，AI“狂飙”
AI科技评论：这次我们沙龙的主题是顶尖科学家聊2025ICLR的最新趋势。我们请到了四位嘉宾，分别是浙江大学计算机学院百人计划研究员赵俊博、南洋理工学院校长、人工智能系主任安波、埃默里大学计算机系副教授刘菲、清华大学AIR研究院助理教授、光轮智能首席科学家、智源学者赵昊。今天把四位老师请过来，希望可以跟大家分享一下我们在ICLR有什么样的见闻，以及对于接下来人工智能走向和趋势的预测。
我想问四位老师的第一个问题是，大家觉得今年的ICLR跟往年比有什么不一样的地方？
赵俊博：我上一次来ICLR已经是很多年前了。这个会其实是从我们NYU的实验室splitoff出去的。14年刚开始的时候也就几百篇论文，没想十一年过去变化会这么大。所以我今年最直接的感受就是人多、论文多、会场大。当年的poster要讲四五个小时，因为当时其实没有那么多的poster，但现在的poster已经压缩到了两个小时的极限。
安波：今年更大一些，有很多来自中国的老师和同学，内容也特别多。今年组织注册那个地方要排一个小时才能领到这个牌子，另外会场显得更加拥挤，通道也比较窄。我个人觉得这个会太大了，当然也证明这个会的质量很好，来了很多优秀的人。
刘菲：我去年参加了在维也纳的ICLR会议，想把去年和今年的做一个对比。我感觉今年的论文在深度和广度方面都是非常棒的，首先我看到了很多非常好的LLM潜在的落地相关的应用。另外一个我注意到的现象是，今年有非常多金融领域的公司作为我们的赞助商。所以我个人也很期待，大模型将来在金融领域能有什么样的突破性的发展。
赵昊：我前年去了基加利（卢旺达首都Kigali，编者注）那场，给我印象特别好。当时也是疫情后第一次ICLR，能感觉到无论中国人还是外国人都很兴奋。两年以后再来，我觉得很意外的就是赞助商怎么这么多。因为最近几次去CV的会议，赞助商的数量好像都有些变少。
AI科技评论：赵老师您今年带了几篇论文过来？
赵昊：今年就带了一篇论文，是做ConditionalImageGeneration的。我的研究方法论是我们生成一些数据，然后用这些数据去训练更好的感知和决策模型。我们用rewardmodeling的方式，用diffusion从各种控制信号生成图片，让它做得更好。
AI科技评论：四位老师今年在会场上肯定看到了一些论文、演讲或者poster。这些内容里有没有令你们印象深刻的、有趣的、好玩的东西，可以跟我们分享一下？
赵昊：那我就讲一讲我们圈子里今年一些有影响力的paper。第一个就是今年会上的最高分IClight，也是比较少见地拿到了满分。这个工作非常有意思，它在diffusion里把光照做得很好。
一般大家会认为无论imagediffusion还是videodiffusion，生成出来的东西都不可控。目前的生成在几何和物理方面表现都不好，但IClight居然能把光照做好，这件事是非常surprising的。同时它也是一个很好的轮子，我和很多朋友最近都在用IClight做光照控制的工作。在CVML领域，真正有影响力的paper是能帮助别人的paper。
我觉得IClight有影响力，最大的原因是它超前于时代。我经常跟我的学生们说，我最钦佩的科学家是能发现超越时代的、带着艺术性和灵感的东西。最典型的就是孟德尔，他在DNA双螺旋结构被发现之前300年，就能够用设计巧妙的实验发现豌豆育种出现不同性状的比例是3:1。可能在300年、100年、50年之后，大家看这个技术也就是那么回事，但他们就是能超前于时代把它做出来，而且还非常有实用价值，我特别喜欢这样的工作。所以在3Dsceneunderstandingandsynthesis这个领域，我今年首推IClight这篇满分论文。
刘菲：我自己比较感兴趣的方向是基于大语言模型的决策系统、规划系统和推理系统。决策系统是一个蛮重要的方向，现在越来越多的用户开始问大语言模型一些复杂问题。
我可以举一个最简单的例子，比如买咖啡机有非常多的选择，可以买一个非常便宜的咖啡机做drippingcoffee，也可以买一个高档一些的。大语言模型根据用户需求进行辅助决策，这就是一个非常简单的决策系统。但同时也会有一些更为复杂的决策系统，比如家里的小孩升学，在择校的时候会有非常多因素需要考虑，包括学校的地理位置、师资情况、排名、学生自身更适合哪种学校。很多时候大家只是把这些信息直接传达给大语言模型，它当然会给一个答案，但是我们没有办法验证这个决策是不是最合适的。针对单一事件做单一的决策，传统上我们基于分类器或者决策树，配合训练数据，大语言模型已经可以很好地进行辅助决策，但复杂的决策系统目前仍然是黑盒状态。
一个我们比较感兴趣的方向是如何把这两种系统集合在一起。基于传统的机器学习得到的分类器非常robust，但是只能应用于特定的任务上，而基于大语言模型的决策系统可以达到特别高的灵活性，我们想把这两种决策方式结合在一起。我们有一个系统叫做Define，主要是在金融领域针对月报或者年报，给出投资建议。
还有一个我们特别感兴趣的方向是sequentialdecisionmaking，它应用于我们需要做一连串决定的场景。我举个简单的例子，如果我想制定一份新加坡旅行计划，那我首先要决定买什么时间的机票、宾馆订在什么地方。同时我要参加ICLR，每天都会有具体的行程安排。把这一连串决策放在一起，需要一个非常复杂的系统。这个决策系统需要optimizegoal，可能是多找时间和大家交流，也可能是控制有限的预算，这样它才能做出最适合我的决策。说到这个，安老师有一篇paper叫AgentStudio，我特别喜欢，也希望能够听安老师讲一下这个工作的细节。
安波：谢谢刘老师。这项工作的技术性不是特别强，我们做了一个能够提供很多benchmark场景的工具，并做完了整个pipeline，可以让大家更容易地开发Agent。
我个人这两年更关注推理RL怎么和大语言模型结合在一起，以及Agent的研究。大语言模型这个概念已经出现好多年了，现在应该到了我们开始思考它落地的时刻，所以我会特别关注它在垂直领域落地方面的事情。我看了一些session，这方面的工作相对前两年还蛮多的。
刘老师刚才讲到决策系统，这也是我们所关心的。这方面有很多挑战，比如多模态的推理。4月份新加坡一座房子失火，一人死亡，还有20多人受伤。我们把几张照片发给GPT，问他能不能做一份现场处置应对的规划。我们发现GPT的规划里有很多问题，体现出它的推理能力不够。比如照片上明显显示很多小孩子受伤了，但是它推荐伤者去中央医院，实际上新加坡有一个很好的儿科医院叫KKH，离火灾场景只有3公里。
让大模型从视频里检索出必要的信息，基于这些情况进行复杂推理，这是我们未来特别想做的事情。我们希望它能规划消防人员怎么进场，需要它考虑现场视频、图片、报案的音频，再把起火大楼的平面图结合到决策中。怎么让这些技术真正地解决现实问题，还有很长的路要走。这是很有挑战的事情，但是有很多真实的应用需要。
赵俊博：我接着刚才安老师的话说。post-training的scaling是在去年九月份左右，从GPT-o1开始出现的，而ICLR的截稿日期是10月2号，所以基本上在这次的poster里很难看到跟后训练或者RL相关的工作。
这个年代发展太快了。去年10月ICLR截稿，现在文章才正式面世，但其实从去年10月到现在已经发生了太多事，包括GPT-4.5、MCP、GPT-4o生成与理解统一的非常炫目的生成效果、国内的Deepseek等等。当年ICLR出现其实是为了缩短文章面世的周期，但是现在这个周期是不是还是赶不上形势的变化，是不是需要把这些conference的形式再重新思考一下。
安波：现在整个pipeline还是需要三个月甚至以上，也许可以再缩短一些。
AI科技评论：我们也感觉这大半年的时间天翻地覆。赵老师你在去年九月份的时候，当时设想今年年中可能会有哪些变化？
赵俊博：我觉得有些事肯定变了，但有些事其实也没变。我对团队说的一句话就是，我们现在做很多东西都是拍脑袋。比如安老师刚才说的这个场景，虽然它很难，但其实有两种路径解决这个问题。第一种路径是multi-agent，比如可以专门做一个Agent解决消防车的调用，最后整个决策体系中穿插着各种Agent。但同时有些其他的问题可以依靠模型的底层能力直接解决。
我们可以看一下LangChain的发展，他们一开始面向multi-agent编排的技术做了很多东西，但关键是现在的basemodel太强大了，导致这些东西好像有一些就没有意义了。这就涉及到一个问题，有些事两年之内basemodel能不能解决掉。如果不能就坚持投入，如果能解决，那我们是不是可以把这方面投入稍微退一步？关键是基于现在这种非常疯狂的变化，判别在两年内能不能解决，我感觉比较难做。
2
ScalingLaw走到尽头了吗
AI科技评论：最近对ScalingLaw的讨论非常多。我也想请教一下四位老师的答案，ScalingLaw到底有没有走到尽头？
赵俊博：我觉得要拆领域来看。首先从Pre-train的角度来说，我认为已经到头了，因为确实没有数据了。人类最高质量的一批token加起来有1015T，DeepSeek-V3用了14.8T。在这15T数据的基础上，如果接受比较高质量的合成数据，再把数据质量的门开得稍微大一点，我觉得差不多能扩展到25~30T，再往上就很难有更多的数据塞进来了。
Post-train方面，大家现在还是大幅依靠数学和代码这种可校验的数据。那么关键的问题是，物理、法律、心理等其他学科的数据能不能用，以及Rewardmodel或者ProcessRewardModel这些相关技术能不能继续发展。或者还有没有新类型数据，比如说股票、游戏交互这些数据能不能拿来训练大模型。
其它结构上，DiffusionLanguageModel暂时没有跑出ScalingLaw，我们现在看到7B、8B有一些效果，但是非自回归的新方法还是值得期待的。

刚才赵老师谈到了多智能体，有一个思考是有没有Multi-AgentScalingLaw，我感觉这个也不存在。我是做传统多智能体的，我们发现并不见得智能体的数量增加，性能就会好，因为数量的增加会导致很多协调、通信方面的问题。我个人觉得学术界的人没有必要执着于研究ScalingLaw是不是要走到头了，因为这个问题已经吵了很多年。
赵俊博：有没有ScalingLaw都可以去做research，这没什么直接关系。
刘菲：我非常同意安老师和俊博老师的想法，这里我可以再补充两点。
第一点我认为可能有一个方向还可以再深入挖掘一下，就是在谈到数据的时候，什么样的数据应该放在预训练当中，什么样的数据应该放在后训练当中。现在大家在做基础模型的时候，基本上是把能够拿到的无论是文本还是其它模态的信息，几乎是一股脑地放在预训练当中。然后在后训练阶段，对于不同的领域，会有专门的数据。其实我们可以重新思考一下这个问题，有没有可能有一种比较好的方法，能够把数据在预训练和后训练中合理地分配，最大化地提高模型能力。
另外我对ReverseScalingLaw也很感兴趣，我想补充的第二个方向是，在数据一定的情况下如何提高模型的能力，尤其是模型在具体任务上的能力。我们训练大模型的初衷是predictthenextword，这个任务本身并不是很重要，其实是通过这样一个简单的任务达到训练模型参数的效果。那么现在我们能不能通过在任务上的创新，提出新的task，帮助我们提高模型的后训练效果，或者模型在某一个领域需要的特定能力。我认为这两个方向，也许可以再深入挖掘一下。
像刚刚两位老师提到过的，大部分大家能够获得的高质量数据几乎已经被用掉了。这两年大语言模型持续不断地生成新的文本、图片，短视频，以后我们能够拿到的数据，会有很多是模型生成出来的。如果我们不加思考地直接用这些数据训练大语言模型，我不太确定对于模型究竟有没有质的提高。
安波：我稍微补充一下。我们NTU前两天邀请了一位EPFL的老师，他就研究这个问题。未来的数据全部是大模型产生的，一代一代地迭代下去，这个世界会变成什么样？他做了一些实验，因为是模拟所以每一代的间隔都要短得多，但是他觉得这将来会对人类的价值观，甚至一切都带来很大的变化。
赵昊：在Vision领域，大家比较痛心疾首的是我们还没有发现ScalingLaw。之前我们做了很久自监督的表征学习，也是想复现NLP领域的成功，但普遍认为结果不是特别成功。很多人认为这是信息密度的原因。Language的信息密度更高，更容易出现ScalingLaw，而vision需要压缩信息。
我觉得VLA有可能在未来一段时间内看到ScalingLaw，这是非常promising的一件事情。我们现在做VLA，一般是用遥操作数据做动作，做完以后复原，再重新采集数据。其实每一条数据都是差不多的，但是就用这些差不多的数据训练，50条的时候是不work的，200条的时候一般刚开始work，500条数据的时候就非常work了。我也不知道为什么，但感觉很像GPT出来的时候NLP领域那种模模糊糊的感觉。我觉得随着这些数据积累得越来越多，也许未来12个月、24个月、36个月，突然我们的VLA就能做出非常灵巧的东西。
AI科技评论：刚才赵老师提到的一个问题我很好奇。您说我们有很多行业性的数据，其实现在还没有办法用来训练，是这样吗？
赵俊博：至少在今天，通过各种技术报告我们可以看到，大家后训练的主体数据还是数学和code，这是因为我们需要一个非常明确的reward计算公式。数学是比较容易算reward的，coding可以跑个OJ，也有比较明确的reward计算方式，这些肯定是最高级的数据。次一级的数据可能需要一个model，不管叫它judgemodel还是rewardmodel，总之得对模型给出的结果和实际的正确答案进行比较，这对数据的要求还是挺高的。比如你算出来答案是5，模型的输出是5，那5是不是等于5，这就是一个reward。我觉得强化学习在大语言模型上面的空间还是比较大的，后面还是有不少事可以做。

赵俊博：我本来想回答这两个不是一个意思，但我后来想，SFT好像也在posttraining的范畴里。我不确定现在是不是还在，大家的术语一直在穿插。

3
模型架构尚未收敛，Diffusion未来可期
AI科技评论：我们最近一直比较关心一个问题，扩散模型和回自回归架构在生成任务上各自有什么优劣？
赵俊博：我个人比较看好Diffusion。我说的不是直接用一个DiffusionModel生成图像，我觉得Diffusion是个很大的概念，它可以diffuse很多东西。
比如清华大学朱军老师做的RDT，整个机器可以用Diffusion在坐标空间的几个目标点上跑扩散过程。还有谢赛宁他们做的MetaQuery，它可以理解图像和文本，同时外接了一个DiffusionModel，通过中间一些简单的空间上的连接，可以把Diffusion吐出去再去生成。这就是一个很典型的autoregressive和DiffusionModel的整合，去完成所谓的生成、理解的统一。

安波：这个方向其实我们也没有做太多工作，但我感觉可能并不是那么容易切换过去。如果真的非常厉害的话，大公司早就纷纷转到那个赛道上去了。而且关于能不能取代Transformer，我觉得可能性也不大。
AI科技评论：对于这一点，刘菲老师怎么看？
刘菲：我们在diffusionmodel上的探索也不是很多，但我比较认同俊博刚刚的观点。Diffusionmodel在图像生成，或者在多模态任务上，确实展现了比较突出的优势。
我主要是做自然语言处理方向的，所以在这个领域，Autoregressivemodel仍然是主流。原因在于，无论是文本数据还是一些时间序列数据，本身都具有很强的序列特性，在这种情况下我们通常更倾向于使用Autoregressivemodel。当然它也有自己的问题，比如在推理（inference）阶段，很难做到并行处理。针对这一问题，目前有几个可以考虑的方向，一个是刚刚俊博提到的，将diffusionmodel和Autoregressivemodel结合起来。

AI科技评论：所以说，接下来大家很可能会探索其他架构？
刘菲：对，是这样的。
赵昊：从我的角度来看，我觉得这个问题可以分成两块。一块是vision本身要不要和language结合的问题。如果只做vision，比如视频或图像生成的话，我们其实特别关注推理速度，所以未来一两年内，纯vision的任务应该会慢慢转向AR（Auto-Regressive）思路，因为在速度上有明显优势。但圈子里还是会有很多做多模态大模型的人，他们其实并不清楚该怎么和language更好地结合。比如多尺度的token如何映射到语言空间，目前谁也说不清楚。所以我觉得，未来的发展方向是需要把这两块问题区分开来看待。
4
Agent的机遇和挑战
AI科技评论：最近大家对Agent也很关注，四位老师有什么想法吗？
赵昊：我自己做Agent的工作不是特别多，但最近找到了一个我认为非常有趣的方向，就是把区块链技术和agent通讯结合起来。我们目前正在机器人系统中，探索基于Agent信息交互方式，搭建一个可信的加密协同框架，我觉得这个领域非常值得深入。
区块链的特点是大家以分布式的方式共同计算，没有任何一个节点能掌握全局信息，但每个节点都参与了链的运作。区块链里有一个核心的数据结构叫Merkle-Tree，它的特点是每个叶子节点上的计算结果都可以被有效验证，并最终在根节点完成整体计算，但叶子节点本身并不知道整体发生了什么。对应到agent系统中，就是每个agent可以参与到协作中，通过通信协议去执行任务，并最终得出结果，但每个agent本身并不知道整体的任务全貌。在机器人领域，这种特性非常有用。
安波：那最终你们想解决什么问题？优化的目标是什么？
赵昊：想做的是一个系统，让agent可以协同完成任务，而且系统具有很强的抗破坏性。
AI科技评论：很新颖的思路！刘菲老师您怎么看？
刘菲：我觉得赵老师提到的将agent和区块链结合的方向，确实非常新颖，非常值得深入挖掘。我这边在agent方向上也有两个代表性的工作。第一个是HARBOR[1]，这是一个multi-agentsystem。我们设想未来，每个人都可以拥有一个专属于自己的personalizedLLMagent，能够深度理解你的兴趣爱好，根据个性化需求，帮助你做出更合适的决策。
在这样的设定下，multi-agentsystem既可能是合作关系，也可能是竞争关系。我举个例子，比如大家在申请工作时，可能都会用到一些大语言模型或者agent帮助修改简历、优化表达。如果只有一个职位，所有申请者之间就构成了竞争。在这种场景下，我们很感兴趣的问题是：在multi-agentsystem中，如何让agent同时考虑个人偏好，并帮助用户做出最具竞争力的决策。
另一个工作是PlanGenLLMs[2]，一篇综述性论文。我们对现有的planningsystem做了系统性的梳理和研究。因为现在各个planning系统在评测时缺乏统一标准，数据集不同，定义的agenticcapabilities也各不相同，所以我们希望能提出一个更统一的评估方法，对各种Agenticsystem进行更科学的评估和比较。
AI科技评论：这种系统会去考察agent的哪些方向？
刘菲：这是一个非常好的问题。我举几个例子，比如我们来到新加坡开会，希望让Agent帮我做一个出行计划，但它最终提供的方案可能并不是用户真正喜欢的，所以这就是其中一个问题。还有一种情况是，比如我的预算有限，但可以接受稍微超出的方案，或者有一些截止日期，必须严格遵守的。这种情况下，Agent系统需要在多目标优化环境中，深刻理解哪些目标必须严格执行，哪些目标可以有一定的灵活性。这是我们评判Agent系统的一个重要方向。
另一个方向是我个人比较感兴趣的。因为未来很多Agenticsystem会分布到家居环境中，比如冰箱、手机等这类edgedevices，它们无法直接调用大模型，因为资源受限。所以未来的一个问题就是，如何在小模型上也能实现较强的agenticcapabilities。
AI科技评论：那可以理解为像冰箱、手机这种设备上，会有自己的端侧小模型？
刘菲：是的，可能在端侧有一个小模型，处理一些本地任务，同时后台由大模型提供支持。一些请求可以直接在小模型上完成，另一些则发送到大模型上处理。
AI科技评论：安波老师，您认为“小模型+Agent”是一个趋势吗？
安波：我认为是的。现在大模型的决策能力都还很弱，更不要说小模型了。总体来看，大语言模型在处理决策问题时，基本上是通过imitationlearning，即模仿已有数据。而这也解释了为什么inference过程如此关键。我认为未来无论是大模型还是小模型，要完成复杂决策任务，都需要引入RL（强化学习），因为RL能通过与环境的交互，不断提升模型的能力。
其实刚才两位老师提到的方向，我也有研究。在做大语言模型之前，我一直在做multi-agentsystem的研究。在这个领域里，communication（通讯）是一种方式，但更关键的是如何实现dynamic协作优化，尤其是在机器人领域，每个agent如何在动态环境中高效协同，这是最困难的部分。而且刘菲老师提到的第一个方向，我认为确实是刚需，只不过这里面还有很多算法上的挑战，比如如何快速找到最优解。
AI科技评论：安波老师，您从什么时候开始做multi-agentsystem的？
安波：我从上学期间就开始做了。稍微科普一下：这个领域起源于上世纪80年代，早期主要是军方为了建传感器网络。因为当时单个传感器能力弱，比如确定一辆车的位置，需要三个传感器协同定位。这就是最早的sensornetwork。
后来，机器人比赛中也需要分布式协作而非集中式控制，这种场景中，Agent完全是合作的。之后，随着互联网兴起，计算博弈论出现了；再后来，传统的distributedplanning难以扩展，于是distributedRL被提出来了。到deeplearning阶段，这一切又被进一步deep化。直到今天，随着大语言模型的出现，AIAgent的概念再次被提出，但实际上，早期的multi-agentsystem已经包含了很多基础思想。
AI科技评论：那您怎么看RL和Agent的结合呢？
安波：我认为这是未来真正落地决策型大模型的关键环节。现阶段我们还能通过充分挖掘大语言模型现有的能力，加一些工具链去完成任务。但如果要让它真正运行在现实世界中，就必须要和环境有真实交互。我们现在也在做一些相关探索，比如在tokenlevel上做exploration（探索），这是一个巨大的机会领域。所以，把RL和大语言模型结合起来，去解决复杂决策问题，是非常重要的方向。
AI科技评论：俊博老师最近有关注到一些相关的公司吗？
赵俊博：这种公司现在很多了，我觉得今年后面还会越来越多。比如前段时间Manus，虽然功能上还有很多局限，但在交互体验上确实让人眼前一亮。
赵昊：写文献综述很好用。
赵俊博：这个领域我觉得肯定是有泡沫的。我也很同意安波老师刚才的看法，大模型本身的决策能力还比较弱。但不管怎么说，大家都在努力往这个方向推进。我相信今年Agent领域的版图还会进一步扩大。
AI科技评论：安波老师，您最近有用过市面上的Agent产品吗？
安波：我用得不多，但有关注到一些，像Manus的评价我也看了很多。总体来说，它还是有不少值得学习的地方。
AI科技评论：您觉得通用Agent是未来可能实现的目标吗？
安波：我认为肯定是AI发展的方向。人类对AI的需求不只是聊天式交互，而是希望AI能帮我们完成特别复杂的任务，这就是Agent的本质。但这条路非常难。即便今天AI在某些数学领域已有突破，我觉得要实现真正的通用Agent，十年时间也很难完成。
AI科技评论：刘菲老师，您目前的研究有没有一些能实用化的Agent项目呢？
刘菲：虽然我们正在做Multi-agentsystem和一些planning相关的算法开发，但也注意到，尽管agent很火，真正能落地的项目其实并不多。
这里面主要有两个潜在问题。第一个是鲁棒性问题。很多agenticsystem最后是以任务成功率作为评估标准，但目前大部分系统的成功率远达不到90%-95%，这会在落地应用时带来很多困难。
第二个问题是安全性挑战。比如，模型生成的内容中可能包含幻觉信息，尤其是在代码生成的场景下问题更突出。正常情况下，如果agent正确地生成代码，是非常好的；但如果因为幻觉问题，生成了不存在的libraryname，或者恶意用户提前注册了这些名字并植入了恶意代码，那后果就很严重了。当然，这只是当前我们已知的一些问题，未来随着应用的深入，肯定还会遇到更多新的挑战。所以，安全性问题必须高度重视。
赵昊：我听完刘菲老师讲的，觉得以后如果每个人都有自己的personalagent，大家为了抢票、抢资源，不就变成了agent之间的战争了吗？如果以后要买一张机票，得付费买一个更厉害的agent，感觉还挺可怕的。
AI科技评论：竞价排名应用到个人生活里了。
赵昊：对，到那时候，要么自己处理所有复杂事务，要么就得付钱用好一点的agent。这种趋势我觉得很快就会出现。
AI科技评论：如果从大模型智力提升的角度来看，大家能预测一下，未来有哪些技术可能帮助模型更聪明？下一个阶段的研究趋势会是什么？
赵昊：我目前的研究方向是生成更可控的内容，进而训练出更聪明的机器人。这也是我认为提升AI智力的重要方式。但目前机器人的问题在于，它们在物理世界的灵敏性还远远不够。机器人领域不仅技术复杂，还涉及产业链，比如供应链，所以发展速度不像纯软件那样快。不过，随着资金和关注度的增加，机器人技术肯定会越来越快进步。
AI科技评论：那你觉得，什么样的机器人才算是真正聪明的？
赵昊：其实现在机器人借助大语言模型的能力，已经挺聪明了。最大的问题不是智力，而是灵敏性。也就是说，当前机器人的“小脑”还不够发达，不够敏捷。
AI科技评论：刘菲老师，您觉得该如何进一步提升大模型的智力？
刘菲：我个人认为，基础模型（pretrainingmodel）仍然是最核心的。最初一两年里大家都在拼基础模型，最近半年虽然评测报告少了，但基础模型的重要性并没有下降。如果有一个非常稳健的基础模型，在此基础上进行长上下文扩展、强化学习（RL）微调、多模态能力扩展等，都会变得更加顺畅。而基础模型质量不好，后续的问题会层出不穷，不仅是幻觉问题。
当然，好的基础模型并不一定非得超级大。其实大概70B参数的模型，就可以非常好用了。虽然更大的模型可能有额外优势，但“越大越好”并不总是成立的。所以，我认为未来一个非常重要的方向，就是在适中的模型规模上，把预训练做到极致。
第二个方向，是未来半年到一年内，关于模型安全性的研究，无论是评测体系还是技术本身，都会成为重点。
最后，我也很期待大模型在交叉学科领域，比如AIforScience、AIforEducation、AIforFinance，能够带来真正突破性的进展。
AI科技评论：安波老师，您觉得呢？
安波：我这边还是更关注决策相关的问题，无论是在inference阶段，还是在multi-agent阶段。我认为这确实是一件非常难的事情。完成一个具体任务是一方面，但如果希望进一步提升系统的鲁棒性，特别是在应用到一些此前数据未覆盖到的场景时，基本上是非常困难的。整体来说，我们还有很长的路要走。
刘菲：我非常同意安老师的观点。未来与环境的真实交互，确实是agenticsystem中非常重要的一环。
AI科技评论：俊博老师，您的看法呢？
赵俊博：我的观点一半乐观一半悲观。乐观的地方是，LLM的post-training这一条路径已经逐渐被摸索清楚了，而且今年之内依然有不少可以深挖的空间。比如说，数据目前还没有被完全穷尽，还有很多新型的数据尚未真正铺开应用。同时，算法和基础设施（Infra）方面也仍有比较大的提升空间。当然，长文本问题涉及到的一些结构体系改进，也是接下来的挑战之一。不过整体来看，一切变化发展都很快，所以最终要到今年年底，我们才能真正看到会发生什么样的新变化。
AI科技评论：好的，那我们就静静期待，今年年底还会有哪些新的突破出现。也非常感谢四位老师今天和我们分享了这么多宝贵的内容，谢谢大家！
参考文档：
1.https ://arxiv.org/pdf/2502.12149
2.https ://arxiv.org/pdf/2502.11221
阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”
https ://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx.zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
（加入未来知识库，全部资料免费阅读和下载）
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡：超级智能机构：赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
壳牌：2025能源安全远景报告：能源与人工智能（57页）
盖洛普&牛津幸福研究中心：2025年世界幸福报告（260页）
Schwab：2025未来共生：以集体社会创新破解重大社会挑战研究报告（36页）
IMD：2024年全球数字竞争力排名报告：跨越数字鸿沟人才培养与数字法治是关键（214页）
DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt
联合国人居署：2024全球城市负责任人工智能评估报告：利用AI构建以人为本的智慧城市（86页）
TechUK：2025全球复杂多变背景下的英国科技产业：战略韧性与增长路径研究报告（52页）
NAVEXGlobal：2024年十大风险与合规趋势报告（42页）
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma：2024年全球生物制药行业展望报告：增长驱动力分析（29页）
【AAAI2025教程】基础模型与具身智能体的交汇，350页ppt
Tracxn：2025全球飞行汽车行业市场研究报告（45页）
谷歌：2024人工智能短跑选手（AISprinters）：捕捉新兴市场AI经济机遇报告（39页）
【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心：2025CSET对美国人工智能行动计划的建议（18页）
罗兰贝格：2024人形机器人的崛起：从科幻到现实：如何参与潜在变革研究报告（11页）
兰德公司：2025从研究到现实：NHS的研究和创新是实现十年计划的关键报告（209页）
康桥汇世（CambridgeAssociates）：2025年全球经济展望报告（44页）
国际能源署：2025迈向核能新时代
麦肯锡：人工智能现状，组织如何重塑自身以获取价值
威立（Wiley）：2025全球科研人员人工智能研究报告（38页）
牛津经济研究院：2025TikTok对美国就业的量化影响研究报告：470万岗位（14页）
国际能源署（IEA）：能效2024研究报告（127页）
Workday：2025发挥人类潜能：人工智能（AI）技能革命研究报告（20页）
CertiK：Hack3D：2024年Web3.0安全报告（28页）
世界经济论坛：工业制造中的前沿技术：人工智能代理的崛起》报告
迈向推理时代：大型语言模型的长链推理研究综述
波士顿咨询：2025亚太地区生成式AI的崛起研究报告：从技术追赶者到全球领导者的跨越（15页）
安联（Allianz）：2025新势力崛起：全球芯片战争与半导体产业格局重构研究报告（33页）
IMT：2025具身智能（EmbodiedAI）概念、核心要素及未来进展：趋势与挑战研究报告（25页）
IEEE：2025具身智能（EmbodiedAI）综述：从模拟器到研究任务的调查分析报告（15页）
CCAV：2025当AI接管方向盘：自动驾驶场景下的人机交互认知重构、变革及对策研究报告（124页）
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》
全国机器人标准化技术委员会：人形机器人标准化白皮书（2024版）（96页）
美国国家科学委员会（NSB）：2024年研究与发展-美国趋势及国际比较（51页）
艾昆纬（IQVIA）：2025骨科手术机器人技术的崛起白皮书：创新及未来方向（17页）
NPL&Beauhurst：2025英国量子产业洞察报告：私人和公共投资的作用（25页）
IEAPVPS：2024光伏系统经济与技术关键绩效指标（KPI）使用最佳实践指南（65页）
AGI智能时代：2025让DeepSeek更有趣更有深度的思考研究分析报告（24页）
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告（37页）
华为：2025鸿蒙生态应用开发白皮书（133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟（QuIC）：2024年全球量子技术专利态势分析白皮书（34页）
美国能源部：2021超级高铁技术（Hyperloop）对电网和交通能源的影响研究报告（60页）
罗马大学：2025超级高铁（Hyperloop）：第五种新型交通方式-技术研发进展、优势及局限性研究报告（72页）
兰德公司：2025灾难性网络风险保险研究报告：市场趋势与政策选择（93页）
GTI：2024先进感知技术白皮书（36页）
AAAI：2025人工智能研究的未来报告：17大关键议题（88页）
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信：2025全球洪水风险研究报告：现状、趋势及应对措施（22页）
兰德公司：迈向人工智能治理研究报告：2024EqualAI峰会洞察及建议（19页）
哈佛商业评论：2025人工智能时代下的现代软件开发实践报告（12页）
德安华：全球航空航天、国防及政府服务研究报告：2024年回顾及2025年展望（27页）
奥雅纳：2024塑造超级高铁（Hyperloop）的未来：监管如何推动发展与创新研究报告（28页）
HSOAC：2025美国新兴技术与风险评估报告：太空领域和关键基础设施（24页）
Dealroom：2025欧洲经济与科技创新发展态势、挑战及策略研究报告（76页）
《无人机辅助的天空地一体化网络：学习算法技术综述》
谷歌云（GoogleCloud）：2025年AI商业趋势白皮书（49页）
《新兴技术与风险分析：太空领域与关键基础设施》最新报告
150页！《DeepSeek大模型生态报告》
军事人工智能行业研究报告：技术奇点驱动应用加速智能化重塑现代战争形态-250309（40页）
真格基金：2024美国独角兽观察报告（56页）
璞跃（PlugandPlay）：2025未来商业研究报告：六大趋势分析（67页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界：多模态生成模型的统一综述
中国信息协会低空经济分会：低空经济发展报告（2024-2025）（117页）
浙江大学：2025语言解码双生花：人类经验与AI算法的镜像之旅（42页）
人形机器人行业：由“外”到“内”智能革命-250306（51页）
大成：2025年全球人工智能趋势报告：关键法律问题（28页）
北京大学：2025年DeepSeek原理和落地应用报告（57页）
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校：面向科学发现的多模态基础模型：在化学、材料和生物学中的应用
电子行业：从柔性传感到人形机器人触觉革命-250226（35页）
RT轨道交通：2024年中国城市轨道交通市场数据报告（188页）
FastMoss：2024年度TikTok生态发展白皮书（122页）
CheckPoint：2025年网络安全报告-主要威胁、新兴趋势和CISO建议（57页）
【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt
《21世纪美国的主导地位：核聚变》最新报告
沃尔特基金会（VoltaFoundation）：2024年全球电池行业年度报告（518页）
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
国际科学理事会：2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告（英文版）（118页）
光子盒：2025全球量子计算产业发展展望报告（184页）
奥纬论坛：2025塑造未来的城市研究报告：全球1500个城市的商业吸引力指数排名（124页）
FutureMatters：2024新兴技术与经济韧性：日本未来发展路径前瞻报告（17页）
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性：从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用：近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心：2024美国民众对气候变化及应对政策的态度调研报告：气候政策对美国经济影响的多元观点审视（28页）
空间计算行业深度：发展趋势、关键技术、行业应用及相关公司深度梳理-250224（33页）
Gartner：2025网络安全中的AI：明确战略方向研究报告（16页）
北京大学：2025年DeepSeek系列报告-提示词工程和落地场景（86页）
北京大学：2025年DeepSeek系列报告-DeepSeek与AIGC应用（99页）
CIC工信安全：2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告（42页）
中科闻歌：2025年人工智能技术发展与应用探索报告（61页）
AGI智能时代：2025年Grok-3大模型：技术突破与未来展望报告（28页）
上下滑动查看更多