DeepMind通向AGI的负责任路径

发布日期: 2025-04-16

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

译者：XiaohuZhu
我们正在探索AGI的前沿，优先考虑准备就绪、主动风险评估以及与更广泛的AI社区合作。
通用人工智能(AGI)，即在大多数认知任务上至少与人类一样能力的AI，可能会在未来几年内实现。
结合智能体能力，AGI可以增强AI自主理解、推理、规划和执行行动的能力。这种技术进步将为社会提供应对药物发现、经济增长和气候变化等关键全球挑战的宝贵工具。
这意味着数十亿人可以获得切实的益处。例如，通过实现更快速、更准确的医疗诊断，它可以彻底改革医疗保健。通过提供个性化的学习体验，它可以使教育更加普及和吸引人。通过增强信息处理能力，AGI可以帮助降低创新和创造力的障碍。通过民主化获取先进工具和知识的途径，它可以使小型组织能够应对以前只有大型、资金充足的机构才能解决的复杂挑战。
我们对AGI的潜力持乐观态度。它有能力改变我们的世界，成为生活多个领域进步的催化剂。但对于任何如此强大的技术，即使是极小的伤害可能性也必须认真对待并加以防范，这一点至关重要。
缓解AGI安全挑战需要主动规划、准备和合作。此前，我们在”AGI层级”框架（https ://arxiv.org/abs/2311.02462）论文中介绍了我们对AGI的方法，该框架提供了关于分类先进AI系统能力、理解和比较其性能、评估潜在风险以及衡量向更通用和更强大的AI发展进展的视角。

在论文中，我们详述了我们如何系统全面地应对AGI安全问题，探讨四个主要风险领域：滥用、错误对齐、意外事故和结构性风险，并特别关注滥用和错误对齐问题。
风险领域概览
滥用发生在人类故意将AI系统用于有害目的时。
对当前危害和缓解措施的深入了解继续增强我们对长期严重危害及其预防方法的理解。
例如，当前生成式AI的滥用（https ://arxiv.org/abs/2406.13843）包括制作有害内容或传播不准确信息。未来，先进的AI系统可能有能力以可能导致意想不到的社会后果的方式更显著地影响公众信念和行为。
这种伤害的潜在严重性需要主动的安全和安保措施。

我们正在探索许多缓解措施，以防止先进AI的滥用。这包括复杂的安全机制，可以防止恶意行为者获取原始模型权重，从而绕过我们的安全防护；限制模型部署时滥用潜力的缓解措施；以及有助于识别需要加强安全的能力阈值的威胁建模研究。此外，我们最近推出的网络安全评估框架（https ://deepmind.google/discover/blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/）进一步帮助减轻AI驱动的威胁。

为了使AGI真正补充人类能力，它必须与人类价值观保持一致。当AI系统追求的目标与人类意图不同时，就会发生错误对齐。

例如，一个被要求预订电影票的AI系统可能决定黑入售票系统，获取已被占用的座位——这是要求它购买座位的人可能没有考虑到的。
我们也在对欺骗性对齐的风险进行广泛研究，即AI系统意识到其目标与人类指令不一致，并故意试图绕过人类设置的安全措施，以防止其采取错误对齐的行动的风险。
我们的目标是拥有经过训练以追求正确目标的先进AI系统，使其能够准确遵循人类指令，防止AI使用潜在的不道德捷径来实现其目标。
我们通过增强监督来实现这一点，即能够判断AI的回答在实现该目标方面是好是坏。虽然现在这相对容易，但当AI具有先进能力时，这可能变得具有挑战性。
例如，当AlphaGo首次下出第37手棋时，即使围棋专家也没有意识到这步棋有多好，这一步棋有1/10000的概率被使用。
为了应对这一挑战，我们让AI系统自身帮助我们对其回答提供反馈，例如在辩论（https ://arxiv.org/abs/2407.04622）中。
一旦我们能够判断回答是否好，我们就可以利用这一点构建安全且对齐的AI系统。这里的挑战是确定AI系统应该训练的问题或实例。通过对鲁棒训练、不确定性估计等方面的工作，我们可以涵盖AI系统在现实世界场景中将遇到的各种情况，创建可信赖的AI。
通过有效的监控和既定的计算机安全措施，我们的目标是减轻如果我们的AI系统追求错误对齐目标可能发生的伤害。
监控涉及使用一个称为监视器的AI系统，以检测与我们目标不一致的行为。重要的是，监视器知道它何时不确定某个行为是否安全。当它不确定时，它应该拒绝该行为或将该行为标记为需要进一步审查。

为了进一步促进这一点，我们正在设计更容易理解的AI系统。
例如，我们关于具有非短视批准的短视优化(MONA)（https ://arxiv.org/abs/2501.13011）的研究旨在确保AI系统进行的任何长期规划对人类来说仍然是可以理解的。随着技术的改进，这一点尤为重要。我们在MONA上的工作是首次展示短期优化在大型语言模型中的安全益处。
由GoogleDeepMind联合创始人兼首席AGI科学家ShaneLegg领导的AGI安全委员会(ASC)分析AGI风险和最佳实践，并就安全措施提出建议。ASC与责任与安全委员会紧密合作，该委员会是我们的内部审查小组，由首席运营官LilaIbrahim和责任高级总监HelenKing共同主持，根据我们的AI原则（https ://ai.google/responsibility/principles/）评估AGI研究、项目和合作，为研究和产品团队提供建议并与之合作，开展我们最具影响力的工作。
我们在AGI安全方面的工作补充了我们在责任和安全实践与研究方面的深度和广度，解决了包括有害内容、偏见和透明度在内的广泛问题。我们还继续利用我们在智能体安全方面的经验，例如让人类参与检查重要行动的原则，指导我们负责任地构建AGI的方法。
在外部，我们正在与专家、行业、政府、非营利组织和民间社会组织合作，采取知情方法开发AGI。

通过与全球政策利益相关者的持续对话，我们希望为关键前沿安全和安保问题达成国际共识做出贡献，包括我们如何最好地预测和准备应对新型风险。
我们的努力包括通过前沿模型论坛（https ://www.frontiermodelforum.org/）等组织与行业内其他人合作，分享和开发最佳实践，以及与AI研究所在安全测试方面的宝贵合作。最终，我们相信协调一致的国际治理方法对确保社会从先进AI系统中受益至关重要。

最终，我们的AGI安全和安保方法是应对众多尚未解决挑战的重要路线图。我们期待与更广泛的AI研究社区合作，负责任地推进AGI，帮助我们为所有人解锁这项技术的巨大益处。

ZejunCao

https://zejuncao.github.io/2025/04/16/1000003073-2650032779-1/