WebDancer：从零训练一个DeepResearch类智能体

发布日期: 2025-06-15

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

作者介绍：本文作者来自通义实验室RAG团队，致力于面向下一代RAG技术进行基础研究。该团队的WebWalker工作也被ACL2025mainconference录用。
论文：https ://arxiv. org/pdf/2505. 22648
仓库：https ://github. com/Alibaba-NLP/WebAgent
在当今信息爆炸的时代，如何高效地从海量的网络数据中获取有价值的信息，成为了人们面临的一大挑战。传统的搜索引擎虽然能够提供大量的信息，但在处理复杂的多步推理任务时往往显得力不从心。来自阿里巴巴通义实验室的研究员提供了WebDancer，一个原生的信息检索的AgenticModel，使之能够像完成类DeepResearch的自主浏览网页、思考和决策，为我们解决复杂的网络信息检索问题提供了新的思路。
以下是一些运行的case：
我们可以看到WebDancer可以完成多步的信息检索，包含多步思考和action执行，在运行过程中进行完成自主的任务拆解、知识回溯和反复验证。
在现实生活中，我们常常需要解决各种复杂的多步推理问题，这些问题往往需要从多个网页中获取信息，并进行综合分析和推理才能得出答案。例如，当我们想要了解某个历史事件的详细经过时，可能需要查阅多个不同来源的网页，对比和分析其中的信息，才能还原事件的全貌。这种复杂的信息检索任务，对于传统的搜索引擎来说是非常困难的，因为它们通常只能提供单步的搜索结果，而无法像人类一样进行多步的推理和决策。
近年来，随着大型语言模型（LLMs）和大型推理模型（LRMs）的发展，人们开始尝试将这些模型应用于信息检索任务中。然而，这些模型在处理复杂的多步推理任务时，仍然存在一些局限性。例如，直接利用提示工程技术来引导这些模型执行复杂任务，往往无法充分利用模型的推理能力；而将搜索或浏览能力整合到智能体中，虽然可以通过监督微调（SFT）或强化学习（RL）来训练，但现有的训练数据集相对简单，无法涵盖现实世界中的复杂挑战。
为了解决这些问题，WebDancer应运而生。它基于ReAct框架，通过一种数据驱动和分阶段训练的方法，构建了一个能够自主进行多步信息检索的智能体。WebDancer的出现，标志着我们在自主智能体领域，训练类DeepResearch的模型迈出了重要的一步。
WebDancer的构建过程可以分为四个关键阶段：浏览数据构建、轨迹采样、监督微调以及强化学习。
为了训练WebDancer，首先需要构建高质量的浏览数据。这些数据需要反映多样化的用户意图和丰富的交互上下文。WebDancer采用了两种方法来合成数据集：CRAWLQA和E2HQA。
CRAWLQA通过爬取网页来构建基于网页信息的问答对。它从一些富含知识的网站（如arxiv、github、wiki等）的source页面开始，模拟人类的浏览行为，递归地导航到子页面，并收集页面上的信息。然后，利用GPT-4o等大型语言模型，根据收集到的信息生成合成的问答对。这些问答对涵盖了多种类型的问题，如计数问题、多跳问题和交集问题等，能够有效地激发模型的多步推理能力。
E2HQA则采用了一种从简单到复杂的问答对合成方法。它从简单的问答对开始，通过逐步增加问题的复杂性，将简单的问题转化为复杂的多步问题。具体来说，它首先从简单的问题中选择一个实体，然后利用搜索引擎获取与该实体相关的信息，并根据这些信息重新构造问题。通过这种方式，可以逐步将一个简单的问题转化为一个需要多步推理才能解决的复杂问题。
在构建了高质量的问答对之后，WebDancer需要采样出高质量的轨迹来指导智能体的学习过程。轨迹采样采用了拒绝采样方法，结合了短链思考（Short-CoT）和长链思考（Long-CoT）两种策略。
短链思考轨迹是通过直接利用ReAct框架，使用强大的模型（如GPT-4o）来收集的。而长链思考轨迹则是通过逐步提供历史动作和观察结果给推理模型（如QwQ-Plus），让模型自主决定下一步的动作。在采样过程中，会进行多次拒绝采样，以确保生成的轨迹的质量和连贯性。
监督微调阶段的目的是让模型适应智能体任务的格式和环境。在这个阶段，WebDancer利用前面采样得到的高质量轨迹，对模型进行微调。通过这种方式，模型能够学习到如何在智能体任务中交替进行推理和行动，从而更好地完成多步信息检索任务。
强化学习阶段的目标是将智能体能力内化到推理模型中，增强模型在多步、多工具使用场景下的能力。WebDancer采用了DecoupledClipandDynamicSamplingPolicyOptimization（DAPO）算法来进行强化学习。DAPO算法通过动态采样机制，有效地利用了在监督微调阶段未充分利用的问答对，提高了数据效率和策略的鲁棒性。
WebDancer在两个具有挑战性的信息检索基准测试——GAIA和WebWalkerQA上进行了实验评估。实验结果表明，WebDancer在这些基准测试中取得了显著的性能提升，证明了其训练范式的有效性。
我们表现最佳的模型在GAIA基准测试中达到了61. 1%的Pass@3分数，在WebWalkerQA基准测试中达到了54. 6%的Pass@3分数。
尽管WebDancer已经取得了令人瞩目的成就，但它的发展之路还远未结束。未来，WebDancer将在多个方向上继续探索和创新。
目前，WebDancer仅集成了两种基本的信息检索工具，未来计划引入更多复杂的工具，如浏览器建模和Python沙盒环境。这些工具将使智能体能够执行更复杂的任务，如网页浏览、数据抓取、API调用等，从而拓展智能体的能力边界，使其能够应对更广泛的挑战。
目前的实验主要集中在短答案信息检索任务上，未来WebDancer将扩展到开放域的长文本写作任务。这将对智能体的推理能力和生成能力提出更高的要求，需要设计更可靠和更有效的奖励信号。同时，WebDancer也将参与更多基准测试，以验证其在不同任务类型和领域中的泛化能力。
相比于一些驱动于强大的具有很强的agentic能力的闭源模型，例如gpt-o4，claude的promtpting工程框架，本研究的侧重点在从头训练一个具有强大agent能力的模型，这对于实现agentmodel的开源以及推进我们对agent在开放系统中如何产生和scale的基本理解至关重要。我们使用的的原生ReAct框架秉持着简洁性，体现了大道至简的原则。
Agenticmodels是指那些在交互式环境中，天生支持推理、决策以及多步骤工具使用的foundationmodels。这些模型仅通过任务描述的提示，就能展现出诸如规划、自我反思以及行动执行等突发性能力（emergentcapabilities）。
近期的DeepSearch和DeepResearch等系统，展示了强大的底层模型如何作为智能体的核心，通过其对工具调用和迭代推理的天然支持，实现自主的网络交互。然而，由于网络环境本质上是动态的且部分可观察的，强化学习在提升智能体的适应性和鲁棒性方面发挥了关键作用。在本研究中，我们的目标是通过有针对性的后训练（post-training），在开源模型中激发自主智能体的能力。
WebDancer的出现，不仅为解决复杂的多步信息检索问题提供了一种新的方法，也为自主智能体的研究和发展提供了重要的启示。通过数据驱动和分阶段训练的方法，WebDancer成功地构建了一个能够自主进行多步信息检索的智能体，为未来智能体的发展提供了新的思路和方向。
WebDancer与DeepResearch在目标上具有一致性，如果通过更系统化的方法来构建和训练智能体，使其能够更好地适应复杂的网络环境仍是一个开放并且具有挑战的课题。
总之，WebDancer的出现为我们解决复杂的网络信息检索问题提供了一种新的可能性。随着技术的不断发展和完善，我们有理由相信，未来的自主智能体将在更多的领域发挥重要作用，为我们的生活和工作带来更多的便利和创新。
进技术交流群请添加AINLP小助手微信（id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区，专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。