AI Agent 全面对比:Manus、OpenManus与OWL
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
作者:RedHerring@知乎链接:https ://zhuanlan.zhihu.com/p/1889798648260449959
AI智能体(AIAgent)深度解析,主要包括Manus、OpenManus、OWL以及Agent发展史。涉及Manus的核心架构解析、工作流程、技术创新等,OpenManus的设计思路、工作流程、技术架构等,以及OWL的核心架构、核心功能、核心工作流等方面。还有Agent的发展史,从裸大模型调用到长短任务智能体的变化。
Manus是一个真正自主的AI代理,能够解决各种复杂且不断变化的任务。其名称来源于拉丁语中”手”的意思,象征着它能够将思想转化为行动的能力。与传统的AI助手不同,Manus不仅能提供建议或回答,还能直接交付完整的任务结果。
作为一个”通用型AI代理”,Manus能够自主执行任务,从简单的查询到复杂的项目,无需用户持续干预。用户只需输入简单的提示,无需AI知识或经验,即可获得高质量的输出。
这种”一步解决任何问题”的设计理念使Manus区别于传统的AI工作流程,更易于普通用户使用。
Manus之前做的是AI浏览器,后跟Arc团队转型做Dia遇到了类似的问题,但比他们做的更多更快,于是转去做了现在的Manus。之前的BrowseUse、ComputerUse的人机协同体验不佳,AI在跟用户抢夺控制权,当你下达任务之后,只能在一旁欣赏AI的表演,如果误触,流程就可能被打断。AI需要使用浏览器,但Manus团队认为应该给AI一个自己云端的浏览器,最后把结果反馈给用户就行。
LessStructure,MoreIntelliengence.这是业内大家讨论比较多的一个非共识,对于这个问题的热烈讨论从扣子Coze等平台支持通过workflow构建AI应用就一直存在。比如FloodSung就在Kimi发布k1.5时表态,“现在的各种AgenticWorkflow就是各种带Structure的东西,它一定会限制模型能力,没有长期价值,早晚会被模型本身能力取代掉。Manus就是这样的设计,没有任何搭建的workflow,所有的能力都是模型自然演化出来的,而不是用workflow去教会的。
Manus设计的第一个核心是给大模型配了一个电脑,让它一步步规划去做observation和action;第二个核心是给它配了系统权限,好比给新来的同事开通了一些公司账户权限,Manus接入了大量的私有API,能够处理许多结构化的权威数据;第三个核心是给它Training,给它培训,就好比跟新来的同事也有磨合的过程,Manus也会根据你的使用习惯不断的去学习你的要求。
为什么Manus说自己是“全球首款真正意义上的通用AIAgent?”那之前的Operator、DeepResearch、MetaGPT、AutoGPT、Eko等等不算吗?以及为啥有人说Manus是套壳到了极致?在我们的理解里,其实之前的一些Agent开源框架也能实现Manus类似的效果,但Manus做了一些不错的工程优化,率先的产品化了出来。这里cue一下另一个华人团队Flowith,他们半年前做的Oracle模式,基本都能实现目前ManusDemo演示出的效果。
Manus的架构设计体现Multi-Agent系统的典型特征,其核心由三大模块构成:
规划模块是Manus的”大脑”,负责理解用户意图,将复杂任务分解为可执行的步骤,并制定执行计划。这一模块使Manus能够处理抽象的任务描述,并将其转化为具体的行动步骤。
作为系统的决策中枢,规划模块实现:
•任务理解与分析
•任务分解与优先级排序
•执行计划制定
•资源分配与工具选择
•语义理解与意图识别(NLU)
•复杂任务分解为DAG结构
•异常处理与流程优化
记忆模块使Manus能够存储和利用历史信息,提高任务执行的连贯性和个性化程度。该模块管理三类关键信息:
•用户偏好:记录用户的习惯和喜好,使后续交互更加个性化
•历史交互:保存过去的对话和任务执行记录,提供上下文连贯性
•中间结果:存储任务执行过程中的临时数据,支持复杂任务的分步执行
构建长期记忆体系:
工具使用模块是Manus的”手”,负责实际执行各种操作。该模块能够调用和使用多种工具来完成任务,包括:
•网络搜索与信息检索
•数据分析与处理
•代码编写与执行
•文档生成
•数据可视化
这种多工具集成能力使Manus能够处理各种复杂任务,从信息收集到内容创建,再到数据分析。
Multi-Agent系统(MAS)由多个交互的智能体组成,每个智能体都是能够感知、学习环境模型、做出决策并执行行动的自主实体。这些智能体可以是软件程序、机器人、无人机、传感器、人类,或它们的组合。
在典型的Multi-Agent架构中,各个智能体具有专业化的能力和目标。例如,一个系统可能包含专注于内容摘要、翻译、内容生成等不同任务的智能体。它们通过信息共享和任务分工的方式协同工作,实现更复杂、更高效的问题解决能力。
Manus采用多代理架构(MultipleAgentArchitecture),在独立的虚拟环境中运行。其运转逻辑可以概括为以下流程:
•任务接收:用户提交任务请求,可以是简单的查询,也可以是复杂的项目需求。Manus接收这一输入,并开始处理。
•任务理解:Manus分析用户输入,理解任务的本质和目标。在这一阶段,记忆模块提供用户偏好和历史交互信息,帮助更准确地理解用户意图。
•运用先进的自然语言处理技术对用户输入进行意图识别和关键词提取
•在需求不明确时,通过对话式引导帮助用户明晰目标
•支持文本、图片、文档等多模态输入,提升交互体验
•任务分解:规划模块将复杂任务自动分解为多个可执行的子任务,建立任务依赖关系和执行顺序。
任务初始化与环境准备:为确保任务执行的隔离性和安全性,系统创建独立的执行环境:
执行计划制定:为每个子任务制定执行计划,包括所需的工具和资源。历史交互记录在这一阶段提供参考,帮助优化执行计划。
自主执行:工具使用模块在虚拟环境中自主执行各个子任务,包括搜索信息、检索数据、编写代码、生成文档和数据分析与可视化等。执行过程中的中间结果被记忆模块保存,用于后续步骤。
系统采用多个专业化Agent协同工作,各司其职:
每个Agent的执行结果都会保存到任务目录,确保可追溯性:
SearchAgent:负责网络信息搜索,获取最新、最相关的数据,采用混合搜索策略(关键词+语义)
CodeAgent:处理代码生成和执行,实现自动化操作,支持Python/JS/SQL等语言
DataAnalysisAgent:进行数据分析,提取有价值的洞见,Pandas/Matplotlib集成
动态质量检测:
结果整合:将各个子任务的结果整合为最终输出,确保内容的连贯性和完整性。
智能整合所有Agent的执行结果,消除冗余和矛盾
生成用户友好的多模态输出,确保内容的可理解性和实用性
结果交付:向用户提供完整的任务结果,可能是报告、分析、代码、图表或其他形式的输出。
用户反馈与学习:用户对结果提供反馈,这些反馈被记忆模块记录,用于改进未来的任务执行。强化模型微调,不断提升系统性能。
1.manus核心优势在Controller层
在agentflow能力(observe,plan和tooldecide的大模型环节),大概率这些是使用自己调优训练的大模型的,并且基础模型大概率是qwen
•Manus比较亮眼的能力:
•Plan较为充分,有条理
•决定使用什么tool的能力很强(例如可以玩2048,用yahooapi下载布伦特原油价格数据)
•浏览器上的观察能力不弱(例如可以展开日历控件并且尝试翻页)
•与用户的交互能力不弱(可以理解到弹出了小红书登录框并且交互要求登录)
•初步判断agentflow中应该是使用了自己调优的模型
•单步的tool或者agent调用可能没有调优,例如codeact模型未必需要在论文基础上调优(目前看官方爆料,大概率用的是ClaudeSonnet3.7)
2.manus的核心壁垒是数据
•很简单,如果得知核心优势是调优的模型,那么核心壁垒就一定是调优数据
•Manus团队之前是做AI浏览器的,浏览器交互数据可能很充分(这也说明了为什么他们浏览器操作很多,并且只能程度很高);这里可以贡献了plan和observe部分的数据。
•其他agentflow的数据未知,尤其是tooldecide的数据情况未知
3.manus的AgentFlow有没有可能使用了其他黑科技
•之前觉得有黑科技,或者说实际上之后可以发展为CodeAgent(就是整个plan和tasks都是code描述的,包括方法调用,状态码,任务复杂结构,trycatch容错等)
•但目前看manus的模式不是,还是本地起todo.md,里面是task-》subtask模式
•不能排除其他黑科技
4.manus不用MCP协议的原因
•MCP其实提供了一个更大范围的可调用toollist,但是它没有解决排行问题和检索问题
•MCP对于Manus模式的贡献可能会有2个,一个是更好的搜索源,一个是官方的长尾rpa(例如操作美团或者12306),除此之外没有什么帮助
Manus具有多项技术特点,使其在AI代理领域脱颖而出:
1.自主规划能力
Manus能够独立思考和规划,确保任务的执行,这是其与之前工具的主要区别。在GAIA基准测试(GeneralAIAssistantBenchmark)中,Manus取得了最新的SOTA(State-of-the-Art)成绩,这一测试旨在评估通用AI助手在现实世界中解决问题的能力。在复杂任务中实现94%的自动完成率。
2.上下文理解
Manus能够从模糊或抽象的描述中准确识别用户需求。例如,用户只需描述视频内容,Manus就能在平台上定位相应的视频链接。这种高效的匹配能力确保了更流畅的用户体验。支持10轮以上的长对话维护。
3.多代理协作
Manus采用多代理架构,类似于Anthropic的ComputerUse功能,在独立的虚拟机中运行。这种架构使不同功能模块能够协同工作,处理复杂任务。
4.工具集成
Manus能够自动调用各种工具,如搜索、数据分析和代码生成,显著提高效率。这种集成能力使其能够处理各种复杂任务,从信息收集到内容创建,再到数据分析。支持自定义工具插件开发。
5.安全隔离
基于gVisor的沙箱环境,确保任务执行的安全性和稳定性。
6.其他技术优势
•环境隔离的任务执行,确保安全性和稳定性
•模块化的Agent设计,支持灵活扩展
•智能化的任务调度机制,最大化资源利用
•任务依赖关系升级为DAG(有向无环图)结构,支持更复杂的任务流
•引入自动化测试和质量控制,提高执行结果的可靠性
•发展人机混合交互模式,结合人类洞察和AI效率
系统的强大能力得益于多层次的模型协作:
•轻量级模型:负责意图识别,提供快速响应
•Deepseek-r1:专注于任务规划,把控全局策略
•Claude-3.7-sonnet:处理复杂的多模态任务,提供深度理解能力
场景类型
典型案例
输出形式
旅行规划
日本深度游定制
交互式地图+预算表
金融分析
特斯拉股票多维分析
动态仪表盘+风险评估
教育支持
动量定理教学方案
互动式课件+实验模拟
商业决策
保险产品对比分析
可视化对比矩阵+建议书
市场研究
亚马逊市场情绪分析
季度趋势报告+预测模型
优点:
•端到端任务交付:不仅提供建议,还能直接执行任务并交付结果
•任务分解能力:能够将复杂任务分解为可管理的步骤
•工具使用能力:能够调用和使用各种工具完成任务
•动态环境适应能力:能够根据任务需求调整执行策略
•长期记忆保持:能够记住用户偏好和历史交互,提供个性化体验
•结果导向:注重交付完整的任务结果,而非仅提供信息
缺点:
•单次交互模式:传统AI主要停留在”对话”层面
•静态响应机制:缺乏自主执行能力
•无状态设计:每次对话独立,缺乏连续性
继deepseek之后,武汉一个开发monica的团队又开发了manus,号称是全球第一个通用的agent!各路自媒体企图复刻下一个deepseek,疯狂报道!
然而manus发布后不久,metaGPT团队5个工程师号称耗时3小时就搞定了一个demo版本的manus,取名openManus,才几天时间就收获了34.4K的start,又火出圈了!现在研究一下openManus的核心原理!
•目前的LLM只能做决策,无法落地实施,所以还需要外部的tool具体干活
•目前的LLM虽然已经有各种COT,但纯粹依靠LLM自己完成整个链条是不行的,还是需要人为介入做plan、action、review等工作
具体到openManus,核心的流程是这样的:用户输入prompt后,有专门的agent调用LLM针对prompt做任务拆分,把复杂的问题拆解成一个个细分的、逻辑连贯的小问题,然后对于这些小问题,挨个调用toolbox的工具执行,最后返回结果给用户!
这类通用agent最核心的竞争力就两点了:
•plan是否准确:这个主要看底层LLM的能力,对prompt做命名实体识别和意图识别!
•toolbox的工具是否丰富:用户的需求是多样的,tool是否足够满足用户需求?
4个文件夹,分别是agent、flow、prompt、tool,只看名字就知道这个模块的功能了
整个程序入口肯定是各种agent啦!各大agent之间的关系如下:
(1)agent核心的功能之一不就是plan么,openManus的prompt是这么干的:promt中就直接说明了是expertplanagent,需要生成可执行的plan!
prompt有了,接着就是让LLM对prompt生成plan了,在agent/planning.py文件中:
plan生成后,就是think和act的循环啦!同理,这部分实现代码在agent/toolcall.py中,如下:think的功能是让LLM选择干活的工具,act负责调用具体的工具执行
think和act是循环执行的,直到满足停止条件,这部分功能在agent/base.py实现的:
既然是while循环迭代,那每次迭代又有啥不一样的了?举个例子:查找AI最新的新闻,并保存到文件中。第一次think,调用LLM的时候输入用户的prompt和相应的人设、能使用的tool,让LLM自己选择一个合适的tool,并输出到response中!这里的LLM选择了googlesearch去查找新闻,并提供了googlesearch的query!
第三次think:同样包含前面两次的promt!但这次LLM反馈已经不需要调用任何工具了,所以这个query至此已经完全结束!
整个流程简单!另外,用户也可以添加自己的tool,只要符合MCP协议就行!
从外部来看,Manus(以及复刻的OpenManus)本质上是一个多智能体系统(Multi-AgentSystem)。不同于单一大模型那种一次性”大而全”的回答方式,多智能体系统通过”规划—执行—反馈”的循环,逐步解决复杂的真实世界问题。在OpenManus的设计中,最核心的思路可以概括为以下几点:
OpenManus的核心设计是构建一个非常精简的Agent框架,强调模块化和可扩展性。它通过可插拔的工具(Tools)和提示词(Prompt)的组合来定义Agent的功能和行为,降低了开发和定制Agent的门槛。
•Prompt决定Agent的行为逻辑和思考方式
•Tools则提供行动能力(如计算机操作、代码执行、搜索等)
通过对Prompt和Tools的自由组合,就能快速”拼装”出新的Agent,赋予其处理不同类型任务的能力。
OpenManus延续了Manus的多智能体规划优势,将PlanningTool用于对用户需求进行高层规划。这种”先规划,后执行”的思路在复杂、长链任务上效果更佳。PlanningTool将复杂的用户需求分解为线性的子任务计划,这种规划能力是处理现实世界复杂问题的关键。过去的研究表明,在相同模型能力下,如果缺乏系统的分解和规划,许多真实问题的成功率会大打折扣;而加入规划后,成功率会有显著提升。
当一个任务拆解出若干子任务后,系统会根据子任务类型,动态将其分配给预先定义或适配的Agent(有各自的工具集和能力倾向)。这种”临时分配+工具协作”的机制,可以最大化利用多模型、多工具的组合优势,提高应对不同问题场景的灵活度。Agent预先装备了不同的工具集以应对不同类型的任务,提高了系统的灵活性和效率。
OpenManus的运行流程可以清晰概括为”规划→分配→执行”,具体步骤如下:
用户在前端或命令行中输入复杂的需求,例如”写一段代码完成某种功能,并自动部署到服务器上”。
系统先调用PlanningTool,对需求进行分析与分解,形成一个线性结构的计划或任务序列。比如,会将需求拆解为:
•分析需求与环境
•编写初始代码
•测试并修复错误
•部署并验证结果
这些子任务被记录在一个plan或类似结构中。
如果任务中涉及大规模数据分析或机器学习流程,可能会调用一个具备DataInterpreter能力的Agent;
若任务需要复杂的代码修复或文件管理,则会调用另一个能够使用ComputerUse工具的Agent;
系统按照顺序从计划中依次取出子任务;
根据任务关键字或意图判定,分配给最合适的Agent。目前Agent分配主要基于正则匹配,未来考虑使用LLM实现更智能的任务分配。
每个Agent都会采用ReAct循环(Reason+Act)与Tools进行交互,以完成自己所负责的子任务。
当某个子任务执行完毕后,系统会将执行结果、关键上下文信息进行必要的”总结与压缩”(以避免不断增加的冗长Memory),然后存入当前的”Plan内存”或全局可访问的共享内存。
如果任务完成顺利,进入下一子任务;
若出现执行失败或结果异常,系统可进行自动调试或重新规划,视设计实现程度而定。
当所有子任务执行完毕,系统对整体结果进行汇总并返回给用户,或完成如网页部署、自动执行脚本等操作。
在这个过程中,多Agent+工具的结构会在复杂需求上展现明显的优势,尤其当需要长链思考、结合搜索或外部工具时,能够更好地完成通用大模型难以一次性解决的工作。
项目依赖相对简单,主要包括一些用于数据验证(pydantic)、AI服务调用(openai)、浏览器控制(playwright、browsergym、browser-use)和一些基础工具库:
•pydantic:数据验证和设置管理
•openai:OpenAIAPI的客户端库
•browser-use:构建能使用网络浏览器的AI代理框架
•browsergym:训练AI使用网络浏览器的环境
•playwright:浏览器自动化库
•googlesearch-python:无需API密钥进行搜索的库
这样的结构设计使得OpenManus在提供强大功能的同时保持了极高的可维护性和可扩展性。
OpenManus的架构由四个主要模块构成:
Agent模块采用清晰的继承层次,自底向上逐步增强功能:
示例代码(Manus实现):
•BaseAgent:定义了智能体的基础属性(name、memory、system_prompt)和基本行为(执行逻辑、状态检查)。
•ReActAgent:实现了经典的”Reasoning+Acting”模式,先思考后行动,每一步执行都分为think和act两个阶段。
•ToolCallAgent:在ReAct基础上进一步细化,使think阶段专注于工具选择,act阶段负责执行所选工具。
•Manus:继承ToolCallAgent,主要通过定制system_prompt和available_tools来赋予不同能力。
工具模块是OpenManus的行动能力基础,各类工具均继承自BaseTool:
其中,planning.py实现了Manus著名的计划功能,用Markdown格式管理任务计划并跟踪执行进度。
•ComputerUse:命令行和计算机操作
•BrowserUse:网络浏览和交互
•PythonExecute:执行Python代码
•GoogleSearch:网络搜索
•FileSaver:文件读写
•PlanningTool:任务规划与追踪
Prompt模块包含了各种Agent使用的指令模板,例如Planning的系统提示:
而Manus的系统提示则更加简洁:
Flow模块负责任务的高层编排和执行流程管理:
PlanningFlow的执行流程:
每步执行前,系统会生成上下文丰富的提示:
BaseFlow:抽象基类,定义了Agent管理和执行接口
PlanningFlow:实现基于规划的执行策略
创建初始计划(_create_initial_plan)
按计划步骤调用适当的Agent
跟踪计划执行状态并动态调整
•用户输入需求,调用Manusagent的run函数
•run函数循环执行step操作(来自ReActAgent)
•每个step包含think(选工具)和act(执行工具)两个环节
•直接使用基础工具集(Python执行、搜索、浏览器、文件保存等)
•使用PlanningTool对需求进行整体规划
•针对每个子任务动态生成适合的上下文和指令
•调用Manusagent执行各个子任务
•维护计划状态和执行进度
值得注意的是,在当前版本中,虽然PlanningFlow具备多智能体调度的能力,但实际上只有单一的Manus智能体在执行任务。未来版本可引入更多专业化的Agent以充分发挥多智能体协作的优势。
与前文描述一致,OpenManus实现了简单但有效的记忆管理和Agent分配机制:
•Memory管理:每个子任务执行后进行总结压缩,避免上下文过长
•Agent分配:当前主要基于正则匹配和规则,后续可考虑LLM辅助分配
在AI领域,开源项目正逐渐成为推动技术发展的重要力量。OWLAgent,一个由CAMEL-AI团队推出的开源AI智能体项目,不仅完全复刻了Manus的核心功能,还在灵活性和开源生态上实现了超越。深入了解OWLAgent如何帮助你零成本打造全能的开源AI打工人。
OWL的多智能体协作机制通过分层架构和模块化设计实现高效协作。它的核心组件包括BaseAgent、ChatAgent、RolePlaying、Workforce以及Task相关Agent等,这些组件各司其职,共同完成任务分解、角色分配和任务执行等功能。
OWL的多智能体协作机制主要基于以下几个核心组件:
•BaseAgent:所有智能体的基类,定义了基本的reset()和step()接口
•ChatAgent:基础的对话智能体,负责管理对话和消息处理
•RolePlaying:实现两个智能体之间的角色扮演对话
•Workforce:实现多个工作节点(agents)协同工作的系统
•Task相关Agent:包括TaskSpecifyAgent、TaskPlannerAgent、TaskCreationAgent等,负责任务的分解、规划和创建
•RoleAssignmentAgent:负责根据任务分配合适的角色
•分层架构:通过层次化设计,提升系统的可扩展性和灵活性。
•任务分解与优先级调整:通过TaskPlannerAgent和TaskPrioritizationAgent实现复杂任务的分解与优先级动态调整。
•协作模式:支持多样化的协作方式,包括角色扮演和工作节点协同。
•记忆管理:利用ChatHistoryMemory记录并管理对话历史。
•工具与API集成:支持外部工具和API的扩展能力。
这种设计使OWL能够高效处理复杂任务,动态调整任务角色分配,提升多智能体间的协作效率,同时具备自适应学习和优化能力,满足多样化的应用需求。
•在线搜索:使用维基百科、谷歌搜索等,进行实时信息检索
•多模态处理:支持互联网或本地视频、图片、语音处理
•浏览器操作:借助Playwright框架开发浏览器模拟交互,支持页面滚动、点击、输入、下载、历史回退等功能
•文件解析:word、excel、PDF、PowerPoint信息提取,内容转文文本/Markdown
•代码执行:编写python代码,并使用解释器运行
OWL将Manus的核心工作流拆解为以下六步:
•启动Ubuntu容器,为Agent远程工作准备环境。
•知识召回,快速调用已学习的内容。
•连接数据源,覆盖数据库、网盘、云存储等。
•数据挂载到Ubuntu,为Agent提供数据支持。
•自动生成todo.md,规划任务并创建待办清单。
•使用Ubuntu工具链和外接工具执行全流程任务。
为了实现Agent的远程操作,OWL配备了强大的UbuntuToolkit,支持以下功能:
•终端命令执行,满足运维和部署需求。
•文件解析,支持PDF转Markdown、网页爬取等。
•自动生成报告、代码和文档,直接交付成果。
•浏览器操作,支持滚动、点击、输入等交互。
与Manus类似,OWL也具备记忆功能,能够实时存储新知识,并在任务中召回过往经验。这使得OWL在处理类似任务时更加高效。
在Manus爆火之前,CAMEL-AI已经开发了CRAB——一套强大的跨平台操作系统通用智能体。CRAB不仅能操控Ubuntu容器,还能直接控制手机和电脑中的任何应用。未来,CRAB技术将融入OWL,实现跨平台、多设备、全场景的远程操作。
在AI领域,开源的力量是无穷的。OWL项目不仅在0天内复刻了Manus的核心功能,还通过开源模式吸引了全球开发者的参与。它不仅性能卓越,还具备高度的灵活性和扩展性。
维度
OWL
开放手册
执行环境
Docker容器+原生系统穿透
本地沙箱环境
任务复杂度
支持多设备联动任务
单设备线性任务
记忆系统
增量式知识图谱(支持版本回溯)
临时记忆池(任务级隔离)
资源消耗
单任务平均8万tokens
单任务峰值24万tokens
扩展性
插件市场+自定义工具链
固定模块组合
OWLAgent作为一个开源AI智能体项目,不仅在性能上达到了行业领先水平,还在成本和灵活性上具有显著优势。它为开发者和用户提供了一个零成本、高性能的AI工具,能够满足多种应用场景的需求。
•在裸大模型调用上进行了简易的封装,变成了对话机制的chatbot
•要注意的是每一轮对话,都会包括系统提示词+历史对话+最新一轮用户输入
•Langchain是一个非常古老的智能体项目
•主要提出了智能体的概念和组成部分,对后世影响巨大
•设计时概念:
•智能体Agent。表示了一个可能包含AI步骤,能够自动完成多步任务的程序。Agent由以下部分组成。
•步骤/链条Chain。表示一个有输入有输出,会进行处理的步骤。
•常见的Chain是LLMChain,也就是大模型步骤。
•实际上也可以包括任何其他形式的处理。
•路由Router。用于判断接下来该进行哪个Chain。
•可能通过某些数值或者条件来进行判断。
•但实际上LLMRouter也很常见,也就是你问大模型接下来是应该走哪个Chain。
•工具Tool。类似于搜索,计算器,日期这样的工具调用。与Chain的主要区别在于,tool是在Chain上的一次调用还会返回Chain。
•运行时概念:context上下文,status状态。
大致可以理解成多个Agent进程/线程会并行工作,相互之间通过某些机制进行沟通(例如消息队列)
典型案例:metagpt的多角色协同(产品、后端、前端、测试),斯坦福小镇
不出现并行工作的,不是Multi-agent;coze上所谓的“Multi-agent”就是典型的错误概念,因为它只是不同的agent之间串行流转。
通常需要较长的步骤或者较多的时间才能完成,需要进行agentflow编排。
Copilot类。
•希望有人工进行干预,有可能允许人工修改参数,选择参考资料,甚至决定路由。
典型:Flowith(Oracle模式)
Agentic类。
•追求更高的自动化程度,极少需要人工干预。
典型:autogpt,Manus,metagpt,geminideepresearch
•通常追求的是更快的响应时间,因为人类对这类场景的响应时间有要求。
•虚拟人
人工智能游戏
•硬件相关,例如:智能家居、车载、智能音箱