直播预约 | 智能体框架分享与探讨 - OWL, Alita, AG2


直播预约 | 智能体框架分享与探讨 - OWL, Alita, AG2

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

智能体框架Panel-OWL,Alita,AG2
2025. 6.8周日9:30北京时间2025. 6.7周六21:30纽约时间
OWL多智能体协作框架——胡梦康香港大学博士生
Alita一个\“至繁归于至简\“理念设计的通用智能体——裘嘉豪普林斯顿大学博士生
AG2(原AutoGen)生态系统及其核心概念和应用——张少坤宾夕法尼亚州立大学博士生
TBD
胡梦康,香港大学计算机系二年级博士生,导师为罗平老师。研究方向为基于大语言模型的智能体、具身智能,在人工智能国际顶级会议及期刊发表论文十余篇。
内容介绍基于大语言模型的多智能体系统在自动化现实世界任务方面展现出潜力,但由于其领域特定性,难以实现跨领域迁移。现有方法存在两个关键缺陷:应用于新领域时需要完全重新设计架构并对所有组件进行完整训练。我们提出Workforce——一种分层多智能体框架,通过模块化架构将战略规划与专业执行解耦,该架构包含:(i)用于任务分解的领域无关规划器(Planner);(ii)用于子任务管理的协调器(Coordinator);(iii)具备领域特定工具调用能力的专业化执行器(Workers)。这种解耦设计实现了推理阶段和训练阶段的双重跨领域可迁移性:在推理阶段,Workforce通过增减或修改执行器即可无缝适配新领域;在训练阶段,我们提出优化工作流学习(OWL),通过基于现实反馈的强化学习来优化领域无关规划器,从而提升跨领域泛化能力。为验证该方法,我们在GAIA基准测试上评估Workforce,该测试涵盖多种现实场景下的跨领域智能体任务。实验结果表明Workforce以69. 70%的准确率取得开源领域最先进性能,较OpenAI深度研究等商业系统高出2. 34%。更值得注意的是,经过OWL训练的320亿参数模型达到52. 73%准确率(提升16. 37%),在复杂任务上表现出与GPT-4o相当的性能。综上所述,通过实现可扩展的泛化能力和模块化领域迁移,我们的工作为下一代通用人工智能助手奠定了基础。
裘嘉豪,普林斯顿大学三年级博士生,导师王梦迪教授。研究方向大语言模型,智能体,AI4Science,在人工智能国际顶级会议发表多篇论文。
内容介绍近年来,大语言模型的突破使得智能体能够自主完成复杂开放式的任务。然而,现有框架大多严重依赖人工预定义工具与工作流,这制约了其跨领域适应性、可扩展性和泛化能力。为此,我们提出Alita——一个秉持\“至繁归于至简\“理念设计的通用智能体,通过最小化预定义与最大化自进化实现可扩展的智能推理。最小化预定义,Alita仅配备单一核心组件用于直接问题求解,相比依赖繁复手工定制工具链的传统方案更为简洁。这种极简设计使其在应对复杂问题时不受工具限制,展现出更强的泛化潜力。最大化自进化,通过开源模型上下文协议(MCPs)生成机制,Alita能利用通用组件库自主构建、优化和复用外部能力。这种动态能力进化框架为可扩展智能推理提供了基础。实验表明,Alita在GAIA基准验证集上达到75. 15%pass@1和87. 27%pass@3准确率,在通用智能体中名列前茅;在MathVista和PathVQA测试中分别取得74. 00%和52. 00%pass@1成绩,显著优于复杂度更高的竞争系统。当前Alita在GAIA测试集上的准确率已达71. 76%。
张少坤,宾夕法尼亚州立大学计算机系博士四年级在读生,导师为QingyunWu教授。研究方向为智能体人工智能与强化学习。在人工智能领域顶级会议和期刊上发表论文十余篇。个人主页:https ://skzhang1. github.io
内容介绍本次报告将探讨构建高效AI智能体的基本原则与实践,重点介绍AG2框架(前身为AutoGen)。随着人工智能领域从单一模型向复杂复合系统转变,AG2提供了关键的工具与抽象机制以支持这一趋势。报告首先将介绍AG2生态系统及其核心概念,如可对话智能体、工具集成与结构化输出。随后,我们还将展示基于AG2构建的一些前沿应用,包括网页浏览智能体、文档研究智能体和实时通信智能体。

欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录