阿里WebDancer：训练类DeepReaserch的Agentic Model

发布日期: 2025-06-03

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

本文作者来自通义实验室RAG团队，致力于面向下一代RAG技术进行基础研究。该团队的WebWalker工作也被ACL2025mainconference录用。
在当今信息爆炸的时代，如何高效地从海量的网络数据中获取有价值的信息，成为了人们面临的一大挑战。传统的搜索引擎虽然能够提供大量的信息，但在处理复杂的多步推理任务时往往显得力不从心。来自阿里巴巴通义实验室的研究员提供了WebDancer，一个原生的信息检索的AgenticModel，使之能够像完成类DeepResearch的自主浏览网页、思考和决策，为我们解决复杂的网络信息检索问题提供了新的思路。
以下是一些运行的case：
我们可以看到WebDancer可以完成多步的信息检索，包含多步思考和action执行，在运行过程中进行完成自主的任务拆解、知识回溯和反复验证。
在现实生活中，我们常常需要解决各种复杂的多步推理问题，这些问题往往需要从多个网页中获取信息，并进行综合分析和推理才能得出答案。例如，当我们想要了解某个历史事件的详细经过时，可能需要查阅多个不同来源的网页，对比和分析其中的信息，才能还原事件的全貌。这种复杂的信息检索任务，对于传统的搜索引擎来说是非常困难的，因为它们通常只能提供单步的搜索结果，而无法像人类一样进行多步的推理和决策。
近年来，随着大型语言模型（LLMs）和大型推理模型（LRMs）的发展，人们开始尝试将这些模型应用于信息检索任务中。然而，这些模型在处理复杂的多步推理任务时，仍然存在一些局限性。例如，直接利用提示工程技术来引导这些模型执行复杂任务，往往无法充分利用模型的推理能力；而将搜索或浏览能力整合到智能体中，虽然可以通过监督微调（SFT）或强化学习（RL）来训练，但现有的训练数据集相对简单，无法涵盖现实世界中的复杂挑战。
为了解决这些问题，WebDancer应运而生。它基于ReAct框架，通过一种数据驱动和分阶段训练的方法，构建了一个能够自主进行多步信息检索的智能体。WebDancer的出现，标志着我们在自主智能体领域，训练类DeepResearch的模型迈出了重要的一步。
WebDancer的构建过程可以分为四个关键阶段：浏览数据构建、轨迹采样、监督微调以及强化学习。
为了训练WebDancer，首先需要构建高质量的浏览数据。这些数据需要反映多样化的用户意图和丰富的交互上下文。WebDancer采用了两种方法来合成数据集：CRAWLQA和E2HQA。
CRAWLQA通过爬取网页来构建基于网页信息的问答对。它从一些富含知识的网站（如arxiv、github、wiki等）的source页面开始，模拟人类的浏览行为，递归地导航到子页面，并收集页面上的信息。然后，利用GPT-4o等大型语言模型，根据收集到的信息生成合成的问答对。这些问答对涵盖了多种类型的问题，如计数问题、多跳问题和交集问题等，能够有效地激发模型的多步推理能力。
E2HQA则采用了一种从简单到复杂的问答对合成方法。它从简单的问答对开始，通过逐步增加问题的复杂性，将简单的问题转化为复杂的多步问题。具体来说，它首先从简单的问题中选择一个实体，然后利用搜索引擎获取与该实体相关的信息，并根据这些信息重新构造问题。通过这种方式，可以逐步将一个简单的问题转化为一个需要多步推理才能解决的复杂问题。
在构建了高质量的问答对之后，WebDancer需要采样出高质量的轨迹来指导智能体的学习过程。轨迹采样采用了拒绝采样方法，结合了短链思考（Short-CoT）和长链思考（Long-CoT）两种策略。
短链思考轨迹是通过直接利用ReAct框架，使用强大的模型（如GPT-4o）来收集的。而长链思考轨迹则是通过逐步提供历史动作和观察结果给推理模型（如QwQ-Plus），让模型自主决定下一步的动作。在采样过程中，会进行多次拒绝采样，以确保生成的轨迹的质量和连贯性。
监督微调阶段的目的是让模型适应智能体任务的格式和环境。在这个阶段，WebDancer利用前面采样得到的高质量轨迹，对模型进行微调。通过这种方式，模型能够学习到如何在智能体任务中交替进行推理和行动，从而更好地完成多步信息检索任务。
强化学习阶段的目标是将智能体能力内化到推理模型中，增强模型在多步、多工具使用场景下的能力。WebDancer采用了DecoupledClipandDynamicSamplingPolicyOptimization（DAPO）算法来进行强化学习。DAPO算法通过动态采样机制，有效地利用了在监督微调阶段未充分利用的问答对，提高了数据效率和策略的鲁棒性。
WebDancer在两个具有挑战性的信息检索基准测试——GAIA和WebWalkerQA上进行了实验评估。实验结果表明，WebDancer在这些基准测试中取得了显著的性能提升，证明了其训练范式的有效性。我们表现最佳的模型在GAIA基准测试中达到了61. 1%的Pass@3分数，在WebWalkerQA基准测试中达到了54. 6%的Pass@3分数。
WebDancer的出现，不仅为解决复杂的多步信息检索问题提供了一种新的方法，也为自主智能体的研究和发展提供了重要的启示。通过数据驱动和分阶段训练的方法，WebDancer成功地构建了一个能够自主进行多步信息检索的智能体，为未来智能体的发展提供了新的思路和方向。
WebDancer与DeepResearch在目标上具有一致性，如果通过更系统化的方法来构建和训练智能体，使其能够更好地适应复杂的网络环境仍是一个开放并且具有挑战的课题。
总之，WebDancer的出现为我们解决复杂的网络信息检索问题提供了一种新的可能性。随着技术的不断发展和完善，我们有理由相信，未来的自主智能体将在更多的领域发挥重要作用，为我们的生活和工作带来更多的便利和创新。

推荐阅读
•动手设计AIAgents：（编排、记忆、插件、workflow、协作）
•DeepSeekR1+Agent的下半场
•单智能体（Agent）：企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解（1. 2万字，20+文献，27张图）
欢迎关注我的公众号“PaperAgent”，每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。

ZejunCao

https://zejuncao.github.io/2025/06/03/1000000552-2247494861-1/