智能体综述：起源、演进与大模型时代的新内涵

发布日期: 2025-06-29

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

【AI先锋洞察】近两年随着大模型能力的不断跃升，“智能体”越来越多进入到公众视野，成为学者、程序员、投资人争相关注的话题和对象。年初Manus团队发布的智能体应用案例着实让人感到，智能体不再是学术概念，而已经走入到人们的工作生活，用户只需通过自然语言描述需求，智能体即可快速响应并执行任务。然而智能体究竟是什么，不同时代、不同人群和不同角度都有着不同的定义。本文尝试做一个相对客观的综述，并着重阐述大模型时代的概念内涵。
一、引言
智能体（Agent）的概念并非起源于大型语言模型（LLM）时代，其思想可以追溯到20世纪60年代人工智能的初期。随着技术的发展，智能体逐渐从学术理论走向工业应用，并在近年来迎来爆发式发展。尤其在大模型赋能下，智能体（Agent）技术作为连接感知、决策与行动的核心概念，正重新焕发活力——从传统任务驱动系统演进为具备更强认知和协作能力的自主体。本文将系统回顾智能体的起源、定义、发展历程与技术架构演进，并讨论其在大模型时代的价值重塑与新内涵。
二、智能体的起源与定义
最初“agent”概念来源于哲学和生物学，用以描述具备自主性、自我调节能力的实体。20世纪50年代末至70年代，人工智能研究中开始引入“agent”概念，用于模拟具备感知-决策-行为循环的系统。
一个智能体通常被定义为：
“一个在环境中感知并采取行动以实现目标的系统”（Russell&Norvig,ArtificialIntelligence:AModernApproach）
核心特征包括：
感知（Perception）
决策/推理（Reasoning/Planning）
行为（Action/Execution）
目标导向（Goal-driven）
自主性（Autonomy）
可适应性与学习能力（Adaptability&Learning）
三、发展历程
第一阶段：符号主义（规则驱动）智能体（1950s–1990s）
早期的智能体系统多基于符号主义，依赖于预定义的规则和知识库。这些系统通常是专家系统，通过人工编码的规则进行推理和决策。行为模式靠固定规则驱动，缺乏自主学习与适应能力。
第二阶段：连接主义（任务驱动）Agent(1990-2010)
随着神经网络和机器学习的发展，连接主义方法开始应用于智能体设计。这些Agent能够通过学习数据来改进其行为，但通常缺乏复杂的推理和规划能力。强化学习（RL）与深度学习结合,智能体从“感知+规则”演进为“感知+学习+优化”。典型应用：AlphaGo、OpenAIGym、DeepMind控制智能体。
第三阶段：大模型Agent(2020至今)
大型语言模型（LLM）的出现为智能体技术带来了革命性的变革。LLMAgent能够理解和生成自然语言，智能体不再仅仅是脚本的执行器，更具备任务分解、计划制定、过程管理等能力，能够处理复杂的任务和环境，智能体具有更强的泛化能力。智能体作为新一代“智能操作单元”，将重塑原有系统的运行逻辑与交互方式。
表1智能体发展历程
四、大模型时代下的智能体新价值与内涵
1、从传统到LLM时代的智能体架构变化
传统智能体:传统智能体通常包括感知、认知和行动三个模块。感知模块负责接收环境信息，认知模块进行推理和决策，行动模块执行相应的动作。这种架构在处理复杂任务时面临知识表示、推理效率和泛化能力等方面的挑战。
基于LLM的智能体:基于LLM的智能体利用预训练的LLM作为核心的认知引擎，能够直接处理自然语言形式的任务指令和环境信息，具备了语义理解、推理和语言输出能力。基于“语言-工具-执行”闭环的智能体具有了“认知+行动”的闭环能力，同时大模型具备的“跨任务迁移”与“少样本适应”能力，使得智能体在未见任务上表现出更高鲁棒性，
图1基于LLM的Agent能力组成
与传统智能体相比，基于LLM的智能体在知识来源、泛化能力和交互方式等多个维度上实现了代际跨越。当今的智能体代表着由三大关键发展融合推动的质的飞跃：①LLM前所未有的推理能力、②工具操作和环境交互方面的进步、③支持纵向经验积累的复杂记忆架构。这种融合将理论构想转化为实用系统，日益模糊了助手和协作者之间的界限。这种转变从根本上源于LLM作为通用任务处理器的角色，它通过生成统一语义空间内的感知、决策和行动，从而形成类似人类的认知循环。
图2典型智能体技术架构
如图描述了一个典型的智能体多层架构，主要由三个主要部分组成：用户层、功能层、方案层、智能体层、知识层、数据模型层，以及本体层。智能体层可能由多个不同角色的智能体组成，例如“过程调度代理”、“需求分析代理”、“方案匹配代理”和“方案生成代理”。知识层由不同类型的知识图组成：“对象-关系图”、“事件图”、“模型图”和“解决方案模型”。这些知识图作为系统的知识库，为上层提供支撑。
2、面向复杂环境的多智能体协作
多智能体系统（Multi-AgentSystems,MAS）是人工智能的重要分支，涉及多个自治智能体在共享环境中的感知、决策、协作与博弈。MAS系统结合大模型进行复杂博弈、协作任务（如复杂战场模拟、多机器人协作）成为解决复杂问题的必然路径，也成为智能体系统重要的研究方向。其关键技术包括智能体建模、通信协议、任务协作、博弈与机制设计、多智能体强化学习、冲突协调、系统鲁棒性以及环境信息融合。随着大模型的发展，MAS正向“语言+认知+协作”模式演进，实现更自然的任务协商、更强泛化能力和跨模态智能控制，在军事、制造、城市仿真等领域展现出广阔的应用前景与战略价值。
HASHIRU是一种典型的新式MAS框架，旨在增强灵活性、资源效率和适应性。它利用“CEO”智能体动态管理专门的“员工”智能体，由经济模型驱动其分层控制结构实施智能体生命周期管理。
图3HASHIRU多智能体架构
HASHIRU的特色是“CEO”智能体，可以根据任务需求和资源约束（成本、内存）选择性对员工智能体进行实例化。优先考虑较小的本地LLM，同时在必要时灵活使用外部API和更大的模型。包含招聘/解雇成本的经济模型有助于团队稳定和高效的资源配置。该系统还包含自主API工具创建和记忆功能。
3、自主学习
近年来，自主学习能力在大模型智能体中变得越来越重要。由于任务复杂性和多样性的增加，传统由人类或外部模型监督的大语言模型成本高昂，并且可能面临性能瓶颈。为了解决这个问题，自我进化方法应运而生，它使LLMAGENT能够自主地获取、改进经验，从模型本身生成的经验中学习、从多智能体协同演化中学习，以及通过外部资源演化学习。这些机制共同增强了模型在复杂环境中的适应性、推理能力和性能。
自主优化和自学习使LLM智能体能够在无需大量监督的情况下提升其能力。这包括自监督学习、自反思、自校正和自奖励机制，使模型能够动态地探索、调整和完善其输出。
自监督学习，使LLM智能体能够改进使用未标记或内部生成的数据，从而减少对人工注释的依赖。
自我反省和自我纠正，使LLM智能体能够通过识别和解决错误来改进模型，迭代完善其输出，自我验证技术使模型能够回顾性地评估和纠正其输出，从而做出更可靠的决策。
自我奖励与强化学习，使LLM能够通过生成内部奖励信号来提升性能。自我生成的奖励有助于模型改进决策，并保持稳定一致的学习改进。对比蒸馏使模型能够通过自我奖励机制进行自我调整。此外，通过强化学习策略，利用评估方法促进自我改进，也可以增强LLM的适应性。
多智能体协同进化使LLM能够通过与其他智能体的交互而不断改进。这包括合作学习（智能体共享信息并协调行动）以及竞争性协同进化（智能体参与对抗性互动以改进策略并提升性能）。
外部资源通过提供结构化信息和反馈来增强智能体的进化。知识增强型进化整合结构化知识以改进推理和决策，而外部反馈驱动型进化则利用来自工具和环境的实时反馈来优化模型性能。
五、展望与挑战
当前智能体技术的广泛应用面临以下挑战：
1、长期记忆与状态保持机制不完善
当前智能体多采用短期上下文处理方式，缺乏对历史经验和多轮交互状态的持续记忆。可以通过引入向量数据库+长短期记忆融合结构（如Memory-AugmentedTransformers、RAG机制），通过构建可检索知识记忆模块，结合会话上下文持续追踪状态，实现“任务级”长期记忆能力。
2. 可解释性与鲁棒性问题
大模型驱动的智能体常被视为“黑箱”，难以追溯其推理链条或在异常输入下保持稳定表现。发展“神经-符号融合架构”，引入因果图谱、可视化推理路径等手段，提升推理过程的透明度；同时结合对抗样本训练与鲁棒性评估机制，提升系统对异常输入和边界条件的容错能力。
3. 多智能体系统中的冲突解决机制
多智能体协作中易出现资源竞争、目标冲突和策略分歧，缺乏有效的协商与调解机制。引入博弈论机制（如Nash协商、机制设计）与强化学习中的多主体信用机制（creditassignment），结合任务驱动的“协商智能体”，实现冲突检测与自适应协商调解，保持系统协同稳定性。
六、结语
大型语言模型智能体具有目标驱动行为和动态适应能力，代表了通向通用人工智能的关键途径。智能体技术的演进体现了人工智能从工具化向自治化的跃升。在大模型加持下，智能体将不仅是人工智能的体现形式，更是未来智能系统的核心组织单元，承载着人类复杂任务的理解与执行使命。深入研究与构建“面向目标、具备学习、可感知、能决策”的通用型智能体，是迈向更强AI的关键路径之一。