基于奖励驱动和自组织演化机制，全新框架ReSo重塑复杂推理任务中的智能协作

发布日期: 2025-04-27

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

本文由上海人工智能实验室，悉尼大学，牛津大学联合完成。第一作者周恒为上海ailab实习生和IndependentResearcher耿鹤嘉。通讯作者为上海人工智能实验室青年科学家白磊和牛津大学访问学者，悉尼大学博士生尹榛菲，团队其他成员还有ailab实习生薛翔元。
ReSo框架（Reward-driven&Self-organizing）为复杂推理任务中的多智能体系统（MAS）提供了全新解法，在处理复杂任务时，先分解生成任务图，再为每个子任务匹配最佳agent。将任务图生成与奖励驱动的两阶段智能体选择过程相结合，该方法不仅提升了多智能体协作的效率，还为增强多智能体的推理能力开辟了新路径。
论文标题：ReSo:AReward-drivenSelf-organizingLLM-basedMulti-AgentSystemforReasoningTasks
论文链接：https ://arxiv.org/abs/2503.02390
代码地址：https ://github.com/hengzzzhou/ReSo
研究背景：LLM推理能力的掣肘与突破口
近年来，增加推理时间（InferenceTimeScaling）被广泛认为是提升大语言模型（LargeLanguageModels,LLMs）推理能力的重要途径之一。一方面，通过在训练后阶段引入强化学习与奖励模型，可优化单一模型的推理路径，使其在回答前生成中间步骤，表现出更强的逻辑链构建能力；另一方面，也有研究尝试构建多智能体系统（Multi-AgentSystems,MAS），借助多个基座模型或智能体的协同工作来解决单次推理难以完成的复杂任务。
相较于单模型的推理时间扩展，多智能体方法在理论上更具灵活性与可扩展性，但在实际应用中仍面临诸多挑战：
（1）多数MAS依赖人工设计与配置，缺乏自动扩展与适应性的能力；
（2）通常假设所有智能体能力已知，然而LLM作为“黑箱式”的通用模型，在实际任务中往往难以预先评估其能力边界；
（3）现有MAS中的奖励信号设计较为粗糙，仅依赖结果反馈或自我评估，难以有效驱动优化过程；
（4）缺乏基于数据反馈的动态演化机制，限制了MAS系统在大规模任务中的表现与泛化能力。
上述限制提出了一个核心问题：能否构建一种具备自组织能力的多智能体系统，使其能够通过奖励信号直接从数据中学习协作策略，而无需大量人工干预？
为应对这一挑战，作者提出了ReSo——一个基于奖励驱动、自组织演化机制的多智能体系统架构。该方法通过引入协同奖励模型（CollaborativeRewardModel,CRM），在任务图生成与智能体图构建之间建立反馈闭环，从而实现基于细粒度奖励的智能体动态优化与协作演化。与现有多智能体方案相比，ReSo在可扩展性与优化能力上均具优势，并在多项复杂推理任务上达到了领先性能。
ReSo框架流程图
ReSo框架：TaskGraph+AgentGraph，重塑MAS推理能力
具体来说，作者提出了两项核心创新：(1)ReSo，一个奖励驱动的自组织MAS，能够自主适应复杂任务和灵活数量的智能体候选，无需手动设计合作解决方案。(2)引入协作奖励模型(CRM)，专门用于优化MAS性能。CRM可以在多智能体协作中提供细粒度的奖励信号，从而实现数据驱动的MAS性能优化。
1.问题定义
对于一个解决任意问题Q的多智能体任务，作者将其定义为如下算法：
其中负责根据输入问题构建任务分解图，确保将问题结构化地分解为子任务及其依赖关系。则动态地选择并分配合适的代理来解决已识别的子任务。这种模块化设计使得每个组件能够独立优化，从而实现更高的灵活性和可扩展性。
2.任务图生成：明确子任务和依赖关系
ReSo首先使用一个大语言模型将复杂问题分解，转化为分步骤的有向无环任务图(DAGTaskGraph)，为后续智能体分配提供基础。
在实践中，对于任务分解，作者既测试了了已有的闭源模型（如gpt4o），也在开源LLM(如Qwen-7b)上进行监督微调(SFT)来执行更专业的任务分解。为了微调开源LLM，作者构建了合成数据（见后文数据贡献章节），明确要求LLM将Q分解为逻辑子问题，指定它们的执行顺序和依赖关系，并以DAG格式输出。
3.两阶段智能体选择：从粗到细，精挑细选
一旦获得任务图，作者就需要将每个子任务分配给最合适的代理。作者将此代理分配过程表示为。从概念上讲，会根据大型代理池A中最合适的代理对任务图中的每个节点进行分类，从而构建一个代理图，将每个节点映射到一个或多个选定的代理。
具体来说，作者提出了动态智能体数据库（DADB）作为Agent选择的代理池：通过构建一个动态数据库，存储智能体的基本信息、历史性能及计算成本，以供未来生成初步质量评分。
在DADB的基础上，对于使智能体选择算法具有可扩展性、可优化性，作者提出了两阶段的搜索算法：
粗粒度搜索（UCB算法）：利用上置信界（UCB）算法筛选候选智能体。
给定DADBA和一个子任务vj，作者希望首先从所有智能体中筛选出一批有潜力的候选智能体（数量为k）。
为此，作者采用了经典的上置信界（UCB）策略，该策略兼顾“探索”和“利用”的平衡：
其中：Q()：DADB给出的预评分，N：系统到目前为止分配过的智能体总数，n()：智能体被选中的次数，ε≪1：防止除以0的微小常数，c：超参数，控制探索（少被用过的智能体）与利用（高评分智能体）之间的平衡。
最后，作者按UCB分数对所有智能体排序，选择前k个作为当前子任务的候选集：
细粒度筛选（协作奖励模型CRM）：通过协作奖励模型对候选智能体进行细粒度评估，最终选择最优智能体。
在完成粗粒度筛选、选出了候选智能体集合之后，作者需要进一步评估这些智能体在当前子任务上的实际表现。这一步是通过一个协同奖励模型（CollaborativeRewardModel,CRM）来完成的。
这个评估过程很直接：
每个候选智能体ai对子任务生成一个答案，记作()；
然后作者通过奖励模型来评估这个答案的质量，得到奖励值r(,)：
其中RewardModel会综合考虑以下因素来打分：
A.当前智能体的角色与设定（即其staticprofile）；
B.子任务的目标；
C.以及该智能体在先前的推理过程中的上下文。
在所有候选智能体被评估后，作者将奖励值最高的智能体a分配给子任务，并将其生成的答案作为该子任务的最终解。这个评估与分配过程会对任务图中的每一个子任务节点重复进行，直到整张图完成分配。
1.从训练到推理：动态优化与高效推理
训练阶段：利用CRM奖励信号动态更新DADB，实现自适应优化。
其中：R()表示当前该智能体的平均奖励；n()是它至今参与的任务次数；r(,)是它在当前子任务中的奖励。
类似地，作者也可以用同样的方式更新该智能体的执行开销（例如运行时间、资源消耗等），记作c(,)。
通过不断迭代地学习和更新，DADB能够动态地根据历史数据评估各个智能体，从而实现自适应的智能体选择机制，提升系统的整体性能和效率。
推理阶段：在测试阶段，作者不再需要奖励模型。此时，作者直接使用已经训练好的DADB，从中选择最优的智能体候选者，并为每个子任务挑选最优解。
2.从MCTS视角看ReSo：降低复杂度，提升扩展性
任务图经过拓扑排序后，形成一棵决策树，其中每个节点代表一个子任务，边表示依赖关系。在每一层，作者使用UCB修剪树并选择一组有潜力的智能体，然后模拟每个智能体并使用CRM评估其性能。由此产生的奖励会更新智能体的动态配置文件，从而优化选择策略。MAS的构建本质上是寻找从根到叶的最佳路径，最大化UCB奖励以获得最佳性能。
数据集生成：Mas-Dataset
由于缺乏高质量的MAS数据集，作者提出了一种自动化方法来生成多智能体任务数据。这个过程包括随机生成任务图、填充子任务以及构建自然语言依赖关系。提出了一个单个sample就具有多学科任务的数据集。开源了数据合成脚本论文合成了MATH-MAS和Scibench-MAS数据集，复杂度有3，5，7。复杂度为7的意思为，单个题目中由7个子问题组成，他们来自不同的领域（数学，物理，化学）。子问题之间有依赖关系，评测模型处理复杂问题的能力。下图是个Scibench-MAS复杂度为3的例子：
实验结果
主要结果
表1的实验结果实验表明，ReSo在效果上匹敌或超越现有方法。ReSo在Math-MAS-Hard和SciBench-MAS-Hard上的准确率分别达到33.7%和32.3%，而其他方法则完全失效。图3显示，在复杂推理任务中，ReSo的表现全面优于现有MAS方法，展现了其卓越的性能和强大的适应性。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin.com