“AGI 五年内或将实现”:AI 教父 Bengio 呼吁中美达成共识,警惕 AI 沦为人类武器
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
来源:AI科技大本营(ID:rgznai100)
整理:梦依丹
自从ChatGPT横空出世,AI进入了加速进化的轨道。从最初能写代码、生成文案,到如今能上网查资料、远程操控家电,它早就不再是那个只会聊天解闷的“电子嘴替”。它开始自己“思考”任务,能在多个软件之间协同操作,甚至具备控制电脑、读写数据库的能力。AI从幕后算法,变成了贴身助手,再逐步演化成能自主执行复杂操作的“智能体”——从“听话”走向“行动”,它正成为一个真正能“做事”的多面选手。
听起来是不是挺酷?但也不免让人隐隐担忧:当我们满心期待AGI时代的到来,畅想着AI能帮我们解决一切难题时,另一个更棘手的问题也在浮现——如果有一天,它不再听从人类的指令,那该由谁来“踩刹车”?
在6月6日举行的北京智源大会上,蒙特利尔大学教授、图灵奖得主YoshuaBengio就提出了这样一个发人深省的问题。在题为《如何从失控的AI“心智”中拯救人类的未来》的主旨演讲中,他直言:具备行动能力的AI一旦失控,可能引发系统性灾难,输家只会是全人类。
他呼吁,我们正处在一个关键的时间窗口,必须尽快建立可验证、安全、负责任的控制机制。
演讲伊始,Bengio教授便分享了一段深刻的个人心路历程。他坦言,在亲身体验ChatGPT并目睹AI飞速进化后,深感此前对AI失控风险的认知不足。而一个特殊的时刻,让他彻底警醒的是:
2023年1月,我开始不由自主地想到我的孩子,还有我那刚满一岁的孙子。我当时想,20年后,我们几乎肯定会迎来通用人工智能,拥有比人类更聪明的机器。
可我却不敢确定,我的孙子是否还能拥有属于他的未来。于是,我决心调整我的研究方向和所有工作,倾尽所能去化解这些风险。
尽管这违背了我过去的许多言论、信念和立场,但我知道,这是唯一正确的事。”
这份对子孙未来的深切忧虑,促使这位AI巨匠毅然调整了科研方向,将目光聚焦于AI安全这一关乎人类命运的议题。
Bengio分享了许多关于AI演化路径、技术治理精的彩观点:
1、AGI离我们并不遥远:Bengio警示,AI的发展速度远超预期,我们可能在20年内迎来比人类更聪明的通用人工智能;
2. AI已出现“自我保护”倾向:多项研究显示,现有AI系统已展现出隐瞒、撒谎甚至欺骗行为,表现出初步的自主求生意图;
3. 风险不在于能力,而在于“意图”:真正危险的是拥有强大能力、可在现实中行动、且具备自主目标的AI,而非单纯高智力系统;
4. 应构建“无心智”的ScientistAI:Bengio提出“ScientistAI”方案,开发专注理解世界、不追求目标、不具自主性的诚实智能体;
5. 必须遵循“预防原则”:当技术存在不可预测的极端风险时,必须在科学、政策与治理层面提前设立护栏,避免人类陷入被动。
以下为演讲全文:
哈喽大家好,谢谢刚刚的介绍。
我今天想和大家分享一段自己的心路历程。这段历程始于两年多前,也就是在ChatGPT刚发布不久的那个时候。当时我边试用边在思考:我们可能真的低估了AI的进化速度。
那一刻我突然意识到,距离通用人工智能(AGI)真正到来,可能比我们想象中要短得多。
我们已经有了能基本掌握语言、甚至能够通过图灵测试的机器。几年前,这还像是科幻小说,但现在却变成了现实。
ChatGPT发布之后,我意识到一个问题:我们并不知道该怎么真正控制这些系统。我们可以训练它们,但没法保证它们始终按照我们的意图去行动。那如果有一天,它们比我们更聪明,而且更在乎自己的生存,而不是我们的命运,会发生什么?没人知道答案,但我很清楚:这是一个我们无法承担的风险。
真正让我彻底警醒的是2023年1月。那段时间,我总会情不自禁地想到自己的孩子,还有刚满一岁的孙子。我心里在想:再过二十年,我们很可能就会迎来通用人工智能,一个比人类更聪明的机器时代。可我却不确定,我的孙子还能不能拥有一个属于他的未来。
那一刻,我下定了决心:我要调整我的研究方向,改变我所有的工作重心,把全部的精力投入到一个目标上——尽我所能去降低这项技术可能带来的风险。哪怕这意味着我得放弃自己过去的一些看法、信念甚至立场,我也觉得这是必须做的。
到了2023年底,我正式被任命为《国际AI安全报告》的主席。这份报告背后,是一个由来自30个国家、欧盟、联合国、经合组织的专家组成的团队——当然也包括了中国和美国的专家。
我们聚焦在三个核心问题上:
第一是能力,也就是AI现在到底能做什么?未来几年又会发展到什么程度?
第二是风险,也就是能力提升所带来的潜在问题是什么?
第三是对策,我们现在能做些什么?我们在哪些研究领域、社会机制上,应该提前布好防护网,来应对这些风险?
说到能力这个问题,大家一定要认识到:AI的进步速度远比我们想象得要快。很多人总是只盯着现在的AI水平在讨论问题,但这其实是个错误的出发点。我们真正应该想的是,一年后、三年后、五年后甚至十年后,AI会变成什么样?虽然没人能未卜先知,但趋势已经非常明显——AI的能力正在以惊人的速度提升。
我接下来展示的这张图,是关于AI达到人类水平的时间线。在过去一年左右,AI已经取得了巨大的进步,其中最重要的一项突破,是“思维链”(chain-of-thought)推理模型的出现。它极大提升了AI在数学、计算机科学,乃至各类科学问题上的推理和表现能力。
还有一个我特别关注的趋势,就是“自主心智”(Agency)。AI不再只是一个聊天机器人,它开始具备了做事的能力。它能编程、能浏览网页、能操控电脑、控制家用电器,甚至能读写数据库。这些能力的出现,让AI更像是一个可以“行动”的智能体。
其中我尤其想强调的是“规划能力”。这是目前AI在认知层面上,跟人类差距还比较大的一个方面,所以我们必须密切关注它的进展。比如MITRE公司最近做了一项研究,展示了AI规划能力的增长趋势。横轴是过去五年,纵轴是AI完成一项任务所需的“时长”,用人类完成同样任务所需的时间来衡量。你们看这条线,乍一看像是直线,但其实这是一条对数刻度的图,也就是说,它真正呈现的是一个指数级的增长。
图上的每一个点,代表当时最先进的AI系统。而这些点几乎都精准落在了这条指数曲线上,这意味着AI完成任务所需的时间,平均每七个月就会减半。照这个趋势推算,五年之后,AI在许多规划任务上就能达到人类水平。当然,未来可能会出现瓶颈,但我们不能指望奇迹发生。我们在制定政策、布局商业计划时,至少得把这种趋势的持续性作为一个可能性认真对待。
想象一下,如果一个AI想干一件极其危险的坏事,它首先得具备这个能力。所以,对AI进行“能力评估”就变得非常关键。现在很多关于AI风险的管理工作,基本上都是从评估AI具备什么能力开始的,比如它能不能用这些能力去伤害个人或社会。
但我们都知道,光有能力还不够。就像一个人即使有杀人的能力,如果他没有动机,这件事大概率也不会发生。更何况,在当下公司与公司、国家与国家之间竞争如此激烈的情况下,想让全世界都暂停AI能力的研究,几乎是不可能的。
那我们还能做些什么?或许我们可以从“意图”下手,来降低风险。换句话说,就算AI变得很强,只要我们能确保它没有坏心思,保持诚实,那它就不会伤害我们。
我来举个例子。下面这张图展示了DavidKrueger去年提出的一个观点:一个AI如果要真正变得危险,通常需要三样东西——一是智力,也就是它知道很多、理解很多;二是“手脚”,即它能对这个世界产生实际作用,比如会说话、能上网、能写代码、能操控机器人等;三是目标,它必须有自己的目的。
所以我在研究的一个方向是:我们能不能只造出拥有“智力”的AI,但不给它“目标”,也不让它有太多“手脚”?当然,我们还是希望它能和我们交流。我把这种AI叫作“ScientistAI”。
这个方向其实和过去我们做AI的思路很不一样。以往我们总是想让AI模仿人类,用人类智能做模板。但这样走下去,我们最终可能会造出比我们还聪明的“对手”。那对人类来说,是非常危险的。
所以我在思考,是不是可以反过来:我们能不能设计一种不会伤害我们、但对我们有帮助的AI?于是我就提出了“ScientistAI”的想法,也写了一篇同名的论文。
论文地址:https ://arxiv. org/abs/2502. 15657
这种AI的目标很简单:它要完全诚实、完全没有自主心智、最核心的能力就是“解释世界”。
当今的AI在努力模仿人、讨好人,而ScientistAI则更像一个冷静的分析者。就像演员和心理学家的区别:演员会模仿甚至骗人,而心理学家可以研究一个反社会人格者,却不会变成那个样子。
但我们现在的AI训练方式,更像是在训练它当演员,这显然是有风险的。
不过有个好消息是:我们可以用这个ScientistAI作为基础模块,来构建真正安全的、即便拥有自主心智也不会伤害人的系统。
那怎么才能做出这样的AI呢?我们要让它像一个科学家,能对世界提出“假设”,能推理和解释。这正是科学的本质:提出假设,然后用推理来预测会发生什么。
这里有个很有趣的发现:尽管ScientistAI本身没有自主心智,但它却可以当作一种“护栏”,用来约束其他有自主心智的AI。
什么意思?比如我们现在讲的“大模型监视器”(monitor),其实就是这个“护栏”的体现。它自己不需要有动机、不需要主动做事,它只要预测——预测某个行为会不会带来风险。如果预测到某个行为在某个场景下可能带来伤害,我们就可以禁止这个行为。
换句话说,我们可以用一个“无心”的AI,去看住另一个我们不放心的、有自主意识的AI。
当然,为了让ScientistAI真的做到诚实,它还得学会“谦逊”。什么意思呢?就是不要自以为是、不要瞎编乱造。现在很多AI被训练成只要像是真的就行,这就容易导致它“一本正经地胡说八道”。
举个例子:一个机器人面前有两扇门,它得选一边走。它脑中有两个理论解释之前的数据,但不知道哪个是对的。一个理论说,走左边可能死人,走右边可能得奖;另一个理论说,走左边可能得奖,右边什么也不会发生。你觉得它该怎么选?肯定是选右边更保险。
这个例子说明:要做出好判断,AI就必须保留对现实的不同解释,而不是非黑即白。可惜,现在的AI做不到这一点。所以我们就需要一种方法,让AI在头脑中能保留“多个可能的世界观”。
为了解决这个问题,我们在去年ICLR大会的一篇论文中提出了GFlowNets技术,用来生成“思维链”。这是一种可以解释“为什么前一句话能推出后一句”的逻辑路径。你可以把它理解成,帮AI在两句话之间补上丢失的推理过程。不同于强化学习的优化方法,我们这个技术更像是在找“哪种解释最合理”。
最近我们在arXiv上发了一篇新论文,进一步把“思维链”结构化了。我们不再用一句长长的话来表达整个推理过程,而是像数学证明一样,把它拆成一个个“断言”(claims),每个断言都有真假,并配上一个概率。
这背后的核心思想没变:我们要让AI不再模仿语言,而是学会解释语言。并且这些解释要像逻辑证明一样严谨。更重要的是,我们可以用“潜变量模型”来训练这类系统,也就是说,技术上是可行的。
但即便我们解决了“自主心智”的问题,AI带来的风险也远不止这一点。比如,一个强大的AI可能会帮助恐怖分子设计新型瘟疫——这不是科幻,是科学上真有可能做到的事情。
我们最近了解到,现在的生物学手段已经足以制造出一种杀伤力极强、无法治愈的病毒。如果AI掌握了这些知识,被坏人利用,后果不堪设想。
所以,我们不仅要让AI变聪明,还要让它遵守基本的道德底线。比如:不能杀人、不能骗人、要保持诚实。问题是,现在我们还没做到。
这就是为什么我说,我们必须在“通用人工智能真正到来之前”找到解决方案。这个窗口期也许只有几年,也许有十几年,但很多专家都认为,时间可能比我们想象的短。我们可能只剩下五年。
我们没有多少时间了,必须尽快行动,投入大量资源去解决AI的“对齐”与“控制”问题。
更现实的是,就算我们知道怎么做,技术也成熟了,还远远不够。因为总有人会绕过这些“护栏”。比如,有人把监视模块的代码删了,那AI还是可以被用来作恶。
现在的问题是,全球无论是公司还是国家,在这方面的协调都远远不够。公司之间在竞速,国家之间也在博弈。结果就是,真正投入在“AI安全”上的资源太少了。
我们需要更多立法,需要国家层面的监管。当然,光靠立法也不行,我们还需要中美这些AI研发大国在基本原则上达成共识。但可悲的是,很多人仍然把AI当成一种竞争工具、甚至是武器。这种思路,只会让我们全人类一起走向失败。
如果有一天,一个恐怖分子用AI制造出毁灭性武器,带来的灾难不会只属于某个国家,而是全人类的灾难。我们必须意识到:在AI风险面前,我们其实都在一条船上。
最后,即便政治意愿有了,我们还需要新的技术,来验证AI是否被正当使用。这就像当年搞核裁军一样,要“信任,但也要核查”。我们需要AI的“核查协议”——比如在硬件和软件层面加上一些可验证的限制措施。我相信这是可以做出来的,而且已经有人在研究这方面的工作了。
以上就是我今天想和大家分享的内容。感谢各位的聆听,也希望你们能花些时间,认真思考我们今天讨论的这些问题。
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https ://wx. zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx. zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
壳牌:2025能源安全远景报告:能源与人工智能(57页)
盖洛普&牛津幸福研究中心:2025年世界幸福报告(260页)
Schwab:2025未来共生:以集体社会创新破解重大社会挑战研究报告(36页)
IMD:2024年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214页)
DS系列专题:DeepSeek技术溯源及前沿探索,50页ppt
联合国人居署:2024全球城市负责任人工智能评估报告:利用AI构建以人为本的智慧城市(86页)
TechUK:2025全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52页)
NAVEXGlobal:2024年十大风险与合规趋势报告(42页)
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma:2024年全球生物制药行业展望报告:增长驱动力分析(29页)
【AAAI2025教程】基础模型与具身智能体的交汇,350页ppt
Tracxn:2025全球飞行汽车行业市场研究报告(45页)
谷歌:2024人工智能短跑选手(AISprinters):捕捉新兴市场AI经济机遇报告(39页)
【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心:2025CSET对美国人工智能行动计划的建议(18页)
罗兰贝格:2024人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11页)
兰德公司:2025从研究到现实:NHS的研究和创新是实现十年计划的关键报告(209页)
康桥汇世(CambridgeAssociates):2025年全球经济展望报告(44页)
国际能源署:2025迈向核能新时代
麦肯锡:人工智能现状,组织如何重塑自身以获取价值
威立(Wiley):2025全球科研人员人工智能研究报告(38页)
牛津经济研究院:2025TikTok对美国就业的量化影响研究报告:470万岗位(14页)
国际能源署(IEA):能效2024研究报告(127页)
Workday:2025发挥人类潜能:人工智能(AI)技能革命研究报告(20页)
CertiK:Hack3D:2024年Web3. 0安全报告(28页)
世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告
迈向推理时代:大型语言模型的长链推理研究综述
波士顿咨询:2025亚太地区生成式AI的崛起研究报告:从技术追赶者到全球领导者的跨越(15页)
安联(Allianz):2025新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33页)
IMT:2025具身智能(EmbodiedAI)概念、核心要素及未来进展:趋势与挑战研究报告(25页)
IEEE:2025具身智能(EmbodiedAI)综述:从模拟器到研究任务的调查分析报告(15页)
CCAV:2025当AI接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124页)
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》
全国机器人标准化技术委员会:人形机器人标准化白皮书(2024版)(96页)
美国国家科学委员会(NSB):2024年研究与发展-美国趋势及国际比较(51页)
艾昆纬(IQVIA):2025骨科手术机器人技术的崛起白皮书:创新及未来方向(17页)
NPL&Beauhurst:2025英国量子产业洞察报告:私人和公共投资的作用(25页)
IEAPVPS:2024光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65页)
AGI智能时代:2025让DeepSeek更有趣更有深度的思考研究分析报告(24页)
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37页)
华为:2025鸿蒙生态应用开发白皮书(133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟(QuIC):2024年全球量子技术专利态势分析白皮书(34页)
美国能源部:2021超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60页)
罗马大学:2025超级高铁(Hyperloop):第五种新型交通方式-技术研发进展、优势及局限性研究报告(72页)
兰德公司:2025灾难性网络风险保险研究报告:市场趋势与政策选择(93页)
GTI:2024先进感知技术白皮书(36页)
AAAI:2025人工智能研究的未来报告:17大关键议题(88页)
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信:2025全球洪水风险研究报告:现状、趋势及应对措施(22页)
兰德公司:迈向人工智能治理研究报告:2024EqualAI峰会洞察及建议(19页)
哈佛商业评论:2025人工智能时代下的现代软件开发实践报告(12页)
德安华:全球航空航天、国防及政府服务研究报告:2024年回顾及2025年展望(27页)
奥雅纳:2024塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28页)
HSOAC:2025美国新兴技术与风险评估报告:太空领域和关键基础设施(24页)
Dealroom:2025欧洲经济与科技创新发展态势、挑战及策略研究报告(76页)
《无人机辅助的天空地一体化网络:学习算法技术综述》
谷歌云(GoogleCloud):2025年AI商业趋势白皮书(49页)
《新兴技术与风险分析:太空领域与关键基础设施》最新报告
150页!《DeepSeek大模型生态报告》
军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态-250309(40页)
真格基金:2024美国独角兽观察报告(56页)
璞跃(PlugandPlay):2025未来商业研究报告:六大趋势分析(67页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界:多模态生成模型的统一综述
中国信息协会低空经济分会:低空经济发展报告(2024-2025)(117页)
浙江大学:2025语言解码双生花:人类经验与AI算法的镜像之旅(42页)
人形机器人行业:由“外”到“内”智能革命-250306(51页)
大成:2025年全球人工智能趋势报告:关键法律问题(28页)
北京大学:2025年DeepSeek原理和落地应用报告(57页)
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用
电子行业:从柔性传感到人形机器人触觉革命-250226(35页)
RT轨道交通:2024年中国城市轨道交通市场数据报告(188页)
FastMoss:2024年度TikTok生态发展白皮书(122页)
CheckPoint:2025年网络安全报告-主要威胁、新兴趋势和CISO建议(57页)
【AAAI2025教程】评估大型语言模型:挑战与方法,199页ppt
《21世纪美国的主导地位:核聚变》最新报告
沃尔特基金会(VoltaFoundation):2024年全球电池行业年度报告(518页)
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
国际科学理事会:2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告(英文版)(118页)
光子盒:2025全球量子计算产业发展展望报告(184页)
奥纬论坛:2025塑造未来的城市研究报告:全球1500个城市的商业吸引力指数排名(124页)
FutureMatters:2024新兴技术与经济韧性:日本未来发展路径前瞻报告(17页)
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性:从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用:近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心:2024美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28页)
空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理-250224(33页)
Gartner:2025网络安全中的AI:明确战略方向研究报告(16页)
北京大学:2025年DeepSeek系列报告-提示词工程和落地场景(86页)
北京大学:2025年DeepSeek系列报告-DeepSeek与AIGC应用(99页)
CIC工信安全:2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42页)
中科闻歌:2025年人工智能技术发展与应用探索报告(61页)
AGI智能时代:2025年Grok-3大模型:技术突破与未来展望报告(28页)
上下滑动查看更多