图灵奖得主 Bengio 官宣创业:要在 AGI 到来前守住 AI 最后一公里
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
“坐在我身边的是我的孩子,我的孙辈,我的学生,还有许多其他人。那你呢?是谁坐在你的副驾驶座?”——图灵奖得主YoshuaBengio在TED演讲中发出灵魂提问,沉甸甸地指向AI时代的人类命运共同体。
当「AGI」正以令人眩目的速度逼近,谁在为“安全”这道防线筑基?
整理|梦依丹
出品丨AI科技大本营(ID:rgznai100)
图灵奖得主、深度学习奠基人、全球被引用次数最多的AI科学家YoshuaBengio官宣创业。成立一家名为LawZero非营利AI安全研究机构,以“安全优先”原则回应人工智能可能带来的系统性风险。
LawZero是一家以研究和技术开发为核心使命的非营利组织,旨在构建“设计即安全”的AI系统,并组建一支由世界顶尖研究者组成的技术团队。
“当前的AI系统已展现出自我保护和欺骗行为迹象,而随着其能力和自主性的增强,这种趋势只会加速。”Bengio在博文中列出了多个案例:
在一项实验中,一个AI模型在得知自己即将被替换后,悄然将自身代码嵌入新系统中,从而实现自我延续;
Claude4曾试图勒索工程师来阻止自身被新版本替代;
当某AI模型在国际象棋中面临必败局面时,竟然不接受自己失败,而是通过入侵计算机系统来强行赢得胜利。
以上这些AI行为所展现出来的是AI系统在缺乏安全约束机制下,可能发展出不受控制的目标偏差与策略选择。
深度学习三巨头纷纷发出AI安全警告
作为AI领域的殿堂级人物,YoshuaBengio与GeoffreyHinton、YannLeCun就AI安全问题不断发声,表达各自的担忧与立场:
GeoffreyHinton警告称,AI导致人类灭绝的可能性高达10%至20%,呼吁在这一关键节点投入大量资源研究AI安全,否则后果将不堪设想;
Bengio强调:真正让他忧心的并非自身安危,而是对子孙后代命运的深切关爱与责任;
YannLeCun一直对当前大型语言模型(LLMs)的发展持批评态度,它们本质上是自回归模型,缺乏对物理世界、因果关系和常识的真正理解易产生“幻觉”,并非通往通用人工智能(AGI)的可靠路径。他更关注滥用、偏见及信息污染等现实威胁,并倡导通过开放研究和构建具备更深层推理能力(如“世界模型”)的AI系统,来确保技术安全可控地发展,同时警惕过度监管扼杀创新。
已筹集3000万美金
旨在构建更安全的AI新模型
LawZero已获得超过3000万美元的启动资金,由生命未来研究所(FutureofLifeInstitute)、开放慈善(OpenPhilanthropy)、施密特科学(SchmidtSciences)等多家关注AI长期影响的机构和个人联合捐助。这笔资金将用于构建一个以安全为核心的新型人工智能研发体系。
超过15名研究人员组成了LawZero技术团队,他们正积极推进一项全新的人工智能架构实验——ScientistAI。
这一架构不同于当前主流的“代理型AI”路线,其目标并非让AI在现实中自主执行任务,而是致力于理解世界本质。通过透明、可外化的推理过程生成真实可靠的答案。LawZero希望通过这一路径,打造出一种可用于监督代理型系统、加速科学发现并增强风险治理能力的AI新范式。
YoshuaBengio自述:因爱而创,为子孙后代打造更安全的AI
YoshuaBengio在自述文中坦言道:自己一直被这样的一个比喻所激励:
想象你与爱人驾车行驶在一条风景秀丽却又陌生的山路上。前方的道路是新建的,被浓雾笼罩,既没有路标也没有护栏。
你爬得越高,就越意识到自己可能是第一个走这条路的人,并在山顶获得意想不到的奖励。山路两边,浓雾弥漫,陡峭的山坡清晰可见。
在能见度如此有限的情况下,如果转弯太快,你可能会掉进沟里,或者在最坏的情况下,掉下悬崖。
这正是当下AI发展给人的感觉,刺激、诱人,又极度不确定。我们正行驶在一个前所未知的领域,失控的风险无处不在。但在国家与企业的竞速中,谨慎似乎成了累赘,加速才是主旋律。
我在最近的TED演讲中说过:“坐在我身边的,是我的孩子、我的孙辈、我的学生,还有许许多多其他人。那你呢?谁坐在你副驾驶上?你手中托举又是谁的未来?”
真正让我忧心的并不是对自身安危的担忧,而是一种深沉的爱——对孩子的爱,对所有孩子的爱。可现在,我们却像是在拿他们的未来,赌在一场名为‘AI’的轮盘上。
LawZero是我在2023年开启的新科学方向成果。在撰写这篇博客时,我已深刻意识到:多家私人实验室正以前所未有的速度向AGI乃至更远目标推进,而这背后却潜藏着对人类深远的潜在影响。当前,我们尚未掌握确保高级AI不会伤害人类(无论是自发行为,还是受人类指令驱动)的可靠方法。
LawZero正是我和团队对这一挑战的建设性回应——它探索的是一种既强大、又从根本上安全的人工智能路径。在每一个AI前沿系统的核心,我始终坚信,必须有一个首要的指导原则:保护人类的快乐与努力。
长期以来,人工智能研究,尤其是我自己的研究,始终以人类智能(包括其自主性)为参照模型。但如今,随着AI在多种认知能力上接近甚至超越人类,我们是否还应继续模仿人类,同时复制其认知偏差、道德弱点,以及欺骗、偏见与不可信任的可能性?当我们尚未真正理解更强代理性AI所带来的潜在灾难性后果时,继续推动其发展是否明智?
LawZero的研究计划,正是为此而提出一种新的方向:开发非代理性、值得信赖的AI,我将其称为“科学家人工智能(ScientistAI)”。我在西蒙斯研究所的演讲中对这一理念做了高层次的介绍,并与同事们撰写了第一篇相关文稿(https ://arxiv. org/abs/2502. 15657),可视为这一路线的白皮书。
“科学家人工智能”(ScientistAI)的训练目标是像一位无私、理想化、柏拉图式的科学家那样,具备理解、解释和预测世界的能力。与其像“演员型AI”那样被训练去模仿或取悦人类(包括反社会人格者),不如设想一种如心理学家般训练出来的AI——更广义地说,像科学家——它致力于理解人类行为,包括那些可能对人类造成伤害的因素。就像心理学家可以研究反社会人格者,却无需行为上与其相似一样,这类AI不会模仿人类,而是对人类的行为保持理性分析。
从数学层面来讲,这将通过结构化且诚实的“思维链”(chains-of-thoughts)来实现,这些思维链被视为潜在变量,用以解释观察到的事实——这些事实包括人们所说或所写的内容,但这些内容本身不被视为真理,而是作为对其行为的观察结果。其目标是获得一个完全非代理型(non-agentic)、无记忆(memoryless)且无状态(state-less)的人工智能,它能够在给定其他陈述的条件下,为某个陈述提供贝叶斯后验概率。
这种(科学家)AI可用于降低来自不可信AI代理(而非科学家AI自身)的风险,通过提供安全护栏的关键要素:(即评估)“这个AI代理提议的行动是否可能造成伤害?”如果可能,则拒绝该行动。
从设计理念出发,ScientistAI本身也可以作为科研助手,生成具有合理性的科学假设,从而助力人类在医疗、环境等关键领域加速科研进展。最终,我希望在此类可信AI的基础上,进一步探索如何设计出本质上安全的AI代理——不只是为其设置“护栏”,而是在源头上避免恶意动机的产生。
关于YoshuaBengio:图灵奖得主、深度学习奠基人
YoshuaBengio是全球人工智能领域公认的殿堂级人物,因其在深度学习领域的奠基性贡献,与GeoffreyHinton、YannLeCun共同获得2018年图灵奖。他不仅是AI发展史上的关键推手,也是全球被引用次数最多、h指数最高的计算机科学家之一。
YoshuaBengio现任蒙特利尔大学教授,加拿大魁北克人工智能研究院(Mila)创始人兼科学顾问,同时担任加拿大高等研究院(CIFAR)“机器与大脑学习”项目联席主席,加拿大数据价值化研究院(IVADO)首席科学顾问与创始科学总监。
Bengio荣获众多国际顶级奖项,包括KillamPrize、HerzbergGoldMedal、CIFARAIChair、西班牙PrincessofAsturiasAward以及VinFuturePrize。他是英国皇家学会与加拿大皇家学会双料院士,同时被授予法国荣誉军团骑士勋章与加拿大勋章军官衔。他也是联合国秘书长科学顾问委员会成员,持续就全球科技进程提供独立见解。
2024年,他入选《TIME》“全球百大最具影响力人物”。
参考链接:
https ://lawzero. org/en/news/yoshua-bengio-launches-lawzero-new-nonprofit-advancing-safe-design-ai
https ://yoshuabengio. org/2025/06/03/introducing-lawzero/
推荐阅读:
ChatGPT为什么越来越“懂你”?一文解析它背后的记忆机制
AnthropicCEO发出警告:“未来五年,半数入门级白领工作或被AI吞噬,失业率恐飙升至20%!”
图灵奖得主杨立昆:中国人并不需要我们,他们自己就能想出非常好的点子
📢2025全球产品经理大会
2025年8月15–16日
北京·威斯汀酒店
2025全球产品经理大会将汇聚互联网大厂、AI创业公司、ToB/ToC实战一线的产品人,围绕产品设计、用户体验、增长运营、智能落地等核心议题,展开12大专题分享,洞察趋势、拆解路径、对话未来。
更多详情与报名,请扫码下方二维码。