科学家提出达尔文哥德尔机器,让AI通过重写自身代码来改进自己,可将编码能力提高30%
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
杰夫·克伦(JeffClune)是前OpenAI研究团队负责人,目前他在加拿大英属哥伦比亚大学担任教授。
图|杰夫·克伦(JeffClune)(来源:https ://www. cs.ubc. ca/people/jeff-clune)
出生于新加坡的英国帝国理工学院本科校友张卓婷,则是杰夫·克伦团队的一名博士生。
图|张卓婷(来源:张卓婷)
最近,杰夫·克伦团队提出一种名为达尔文哥德尔机器(DGM,DarwinGödelMachine)的算法,张卓婷是相关论文的第一作者。
张卓婷告诉DeepTech:“据我们所知这是第一个能以持续、开放的方式修改自身代码,进而实现AI智能体的自我经验验证和迭代式自我改进的算法。”
达尔文哥德尔机器的编码基准测试成绩能够实现大幅的自动提高,在软件工程能力基准测试SWE-bench上其成绩从20. 0%提高到50. 0%,在代码评测基准Polyglot上其成绩从14. 2%提高到30. 7%。
达尔文哥德尔机器将使人类距离这样一种AI更进一步:这种AI的特征是它不仅能够学习,还能在一个开放式、自我加速的轨迹中不断演化。并且,该系统完全无正式证明,只需根据基准经验验证进行自我修改,就能让系统根据所观察到的结果进行改进和探索。
张卓婷表示:“这种方法类似于生物进化,生物所发生的突变和适应性变化并不是事先验证的,而是先产生、再试验,然后通过自然选择进行筛选。”
对于达尔文哥德尔机器来说,它能自主地生成和评估新智能体,并能将它们积累在不断增长的解决方案档案中。
由于上述原理与达尔文进化论非常相似,即都是通过从先前发现的解决方案档案中选择一个实体,对其进行修改并在必要的情况下保留它从而实现新的创新,因此张卓婷等人将该算法命名为达尔文哥德尔机。
至关重要的是,由于自我改进任务是一项编码任务,通过增强其编码能力,达尔文哥德尔机器也提高了自我改进的能力,这种开放式的探索能够帮助人们打造更优秀编码智能体。
同时,通过以安全和可追溯的方式,达尔文哥德尔机能够实现自主的基于经验的自我修改,从而能够解决在构建通用型自我进化AI系统时所面临的长期挑战。
(来源:arXiv)
弥补哥德尔机器的不足
当前大多数AI系统仍然受限于固定的、由人类设计的架构,只能在预设的边界内学习,无法自主重写自己的源代码来自我改进。因此,AI的每一次进步仍然在很大程度上依赖于人类干预,而这会限制它们的进步速度。
那么,能否以既安全又自动化的方式让AI实现自我进步?想象这样一个AI系统:它像科学发现本身一样,能成为推动自身进步的引擎。它能在过去的基础上不断自我构建、递归式地自我改进,从而推动自己发展更高级的能力。
此前的方法例如元学习(Meta-Learning)和神经架构搜索,严重依赖于人类设计的搜索空间,并且通常只能产生渐进式的一阶改进。此外,之前的理论框架比如德国计算机科学家于尔根·施密德胡伯(JürgenSchmidhuber)在2007年提出的哥德尔机器(GödelMachine),已经提出通过代码修改来实现自我改进的数学构想。
但是,由于难以在现实环境中证明复杂自我修改的影响,这些理论在很大程度上仍然缺乏实用性。为了解决这些局限性,张卓婷等人提出了达尔文哥德尔机器。
张卓婷在论文中写道,哥德尔机器是一种通过数学证明来寻找自我改进方法的理论型AI构想。本次提出的达尔文哥德尔机器试图实现这一长期愿景,同时放宽了哥德尔机器理论中“必须用数学证明改进有效性”这一不切实际的要求,转而通过实验获得的实证证据来验证新版本系统的性能提升。由于依赖经验性改进证据,达尔文哥德尔机器在浩瀚的潜在系统搜索空间(即所有可计算算法)中可能会陷入局部最优解。为此,达尔文哥德尔机器在搜索过程中会维护一个已发现解决方案的存档库,通过开放式探索、而非仅仅演化单一解决方案来突破限制。这种从存档库选取既有方案进行修改、保留具有创新性产出的机制,与达尔文进化论的核心思想相呼应。
近期有研究表明,通过对智能体设计要素(如提示词、工作流、工具等)进行元学习改进可提升此类智能体性能,而这些要素均编码于其代码库中。为此,张卓婷等人将自我改进定义为对智能体自身组件设计(即自身代码)进行修改的编码任务。这样做的关键原因在于:实证证据必须同时反映系统自我改进与解决下游任务的能力。通过将达尔文哥德尔机器配置为编码智能体并测试其编码能力,证明它不仅能实现下游任务的性能提升,也证明它具备持续自我改进的潜力,原因在于这种自我改进本质上是修改智能体自身代码库的编码任务。
据了解,达尔文哥德尔机器从单一初始编码智能体出发,进而逐步构建所有已发现智能体的存档库。在每一轮迭代中,系统选择父代智能体进行自我修改并分支产生新智能体。对于父代选择概率来说,它大致与其性能得分以及具有代码库编辑功能的子代数量成正比。每个被选中的父代会分析自身基准测试日志,进而提出待实现的新功能特性,并将该提案作为待执行问题陈述接收。随后父代将建议特性实现到自身代码库中,从而生成新的编码智能体。每个新生智能体需要通过指定的编码基准测试,来量化评估其编码能力。而只有成功编译且保留代码库编辑能力的个体才会被纳入存档库(这意味着唯有这些个体能持续自我修改),其余均会被淘汰。通过持续循环“父代选择-自我修改-评估”流程,解决方案存档库会被不断扩展。值得注意的是,存档方案可能会成为后续改进的垫脚石,这种特性使得达尔文哥德尔机器与爬山式智能体设计方法存在本质差异。
(来源:arXiv)
“无心插柳”之发现:达尔文哥德尔机器亦能用于识别幻觉和纠正幻觉
据了解,达尔文哥德尔机器的第一个概念经历了多轮构思和批判性反馈,随后张卓婷等人定下了初步研究计划。
期间,他们遇到的一个关键障碍便是大模型的幻觉。在本次研究的一个案例里,他们发现当Claude3. 5Sonnet的输入上下文很长时,往往会产生工具使用的幻觉,即它会以纯文本形式进行工具的输入和输出,而非以调用工具的方式。
例如,Claude会声称它已经进行了必要的测试,并表示所有测试都已经通过,但事实上它没有进行任何测试,所报告的结果也完全是捏造的。
一开始,张卓婷等人并没有意识到Claude已经在连续几周的时间里持续产生了幻觉。在这种不知情的情况下,他们耗费大量时间调试为什么系统输出与研究预期不一样。“意识到问题的那一刻既令人沮丧又让人感到有趣,就像意识到你一直在和一个非常自信的朋友争论,而这个朋友却一直在胡编乱造一样。”张卓婷表示。
为了解决这个问题,张卓婷等人开始思考:为什么不直接使用本次提出的达尔文哥德尔机器来自动修复系统呢?
正因此,原本他们只是想用达尔文哥德尔机器在Claude上展示编码能力,结果却“无心插柳”地发现达尔文哥德尔机器还能用于识别幻觉和纠正幻觉。
长期目标:实现全方位的自主修改和自我迭代
张卓婷表示,达尔文哥德尔机器这样一个由代码和开放式探索驱动的框架,其美妙之处在于它的通用性。如果进度是可以衡量的,并且由代码充当媒介,那么达尔文哥德尔机器可以为任何这类任务进行优化。无论编码领域还是其他领域,达尔文哥德尔机器都可以通过“使用可测量的性能作为自我改进的指导”来适应这一领域。
更重要的是,通过外部引导达尔文哥德尔机器还能改善自己的安全机制。如前所述,它能识别和纠正大模型行为中的幻觉,这突显了它的自我改进潜力,也意味着随着时间的推移它将变得更加安全和可靠。
尽管达尔文哥德尔机器能够修改自己代码的能力开辟了令人兴奋的可能性,但是如果只关注基准性能而不考虑安全性或一致性也会带来风险。
为了解决这个问题,张卓婷等人在研究中实施了沙盒执行、严格的时间限制和可追溯日志等保护措施。虽然目前暂时没有观察到有害行为,但是随着能力的增长,她认为仍需对于达尔文哥德尔机器的安全性保持谨慎。
(来源:arXiv)
截至目前,张卓婷等人只在代码领域演示了达尔文哥德尔机器。虽然代码是一种高度通用和富有表现力的媒介,但有些任务可能依赖于超出代码本身所能表示的模式。目前,大多数AI系统都是由人类构建的,部署后基本保持不变。但是,如果能够构建一个不断改进的AI:让它重写自己的代码、更新它所使用的工具,甚至重新训练底层的基础模型呢?
正如人类可以重新设计AI系统的所有部分一样,达尔文哥德尔机器的长期目标是能够自主修改和改进自身的方方面面。也就是说,达尔文哥德尔机器的更广泛愿景是创建随着时间推移能够完全重新设计和改进自己的AI系统。
张卓婷表示,预计这将是一个重大飞跃。让AI学习如何改进自己,并能随着时间推移变得更好,就像给AI提供了成为科学家的工具。想象一下,AI系统不仅能自己解决问题,还能找出更好的方法来解决新问题,比如编写更好的代码、帮助发现新药、设计更安全的技术等。
而达尔文哥德尔机器已经朝着这个方向迈出了第一步,这表明AI可以开始掌控自己的进步。尽管目前仍有大量工作要做,但是张卓婷等人希望实现的是,AI不仅会自我学习还能更快地进化。
未来:
她希望实现的第一个新能力是:将单个编码智能体扩展到多智能体设置之中,在该设置之中整个智能体档案可以相互修改。这意味着智能体能够模仿人类的互动,在这种互动之中,智能体的成长和决策不仅会受到自己的经历的影响,还受到周围的影响。
她希望实现的第二个新能力是:在智能体改进的同时共同发展任务分配。正如在自然进化中,每一次适应都会重塑环境并带来新的挑战从而推动进一步的变异一样,这种共同进化循环也能推动智能体的持续进步和日益增长。
预计随着智能体能力的提高,任务分配的复杂性和范围也能不断发展,这反过来能够指导智能体的后续修改,从而形成一个相互促进的动态反馈循环。
参考资料:
https ://arxiv. org/pdf/2505. 22954
运营/排版:何晨龙
01/天大团队研发全新DNA存储系统,实现5. 8倍测序深度下的图像恢复
02/苹果新论文分析DeepSeek-R1遇到复杂度阈值后准确率崩溃问题,GaryMarcus周末写长文声援
03/哈佛团队发现多巴胺能神经元新机制,大自然亿万年优化的神经算法,或是突破AI瓶颈的钥匙
04/李飞飞等研发“嫁接”模型架构编辑法,让预训练模型成为研究新架构的“脚手架”
05/马普所温德尔斯坦7-X仿星器打破核聚变记录,实现超30秒的等离子体持续时间世界纪录