开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp


开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

一、背景:开源WebAgent在艰难任务中的困境与突破
在信息爆炸的时代,传统搜索引擎难以满足用户对深层次、多步骤信息获取的需求。从医学研究到科技创新,从商业决策到学术探索,许多复杂问题的解决都需要深入的信息挖掘和多步推理。然而,人类在有限时间和精力下很难手工完成如此繁琐的检索与推理过程,这可以说触及了人类认知的极限。为此,研究者们希望打造能够自主思考、自主决策的智能体,帮助我们应对这些复杂的信息检索任务。
当前开源WebAgent在极端复杂任务上表现不佳。OpenAI提出的DeepResearch等闭源系统已经在极复杂的信息检索基准上展示了超越人类的能力,如在BrowseComp任务上取得了“超人类”水平的成绩。相形之下,开源模型在这些任务上几乎束手无策:例如在BrowseComp-en这样的复杂基准上,已有开源LLM与WebAgent的准确率几乎为零。这意味着现有训练范式尚未赋予开源模型应对极高不确定性任务所需的推理模式。简言之,开源智能体一直受困于无法有效降低极端不确定性。
BrowseComp有多难?下面是一个例子:
有一部HBO剧集在2018年至2022年期间(含)播出。在第一季第七集中,片头曲来自一个2012年在非洲兴起的音乐流派。一篇2022年的文章提到,这首歌的一位创作者A在11年级时辍学。另一篇2022年的文章说,这首歌另一位创作者B在高中时曾踢过足球,同时在其他地方当DJ。创作者A是谁?
其难度不在于找到一个事实,而在于通过一系列分散、间接的线索,经过多步推理和复杂过滤,最终构建出一个特定事实的能力。它考验的不是检索能力,而是推理、规划和信息整合的综合能力,这使其成为衡量agent高级认知和自主研究能力的黄金标准。
面对这一困境,阿里巴巴通义实验室RAG团队推出了最新研究成果WebSailor。WebSailor带来了完整的后训练方案来弥补这一差距,使开源模型在超复杂的信息检索任务上实现突破。通过创新的数据构造和训练方法,WebSailor成功赋予开源WebAgent以超人类推理能力,在BrowseComp等长期未解的挑战上取得了前所未有的成绩,大幅度缩小了开源模型与顶级封闭系统之间的差距。
论文标题:
WebSailor:NavigatingSuper-humanReasoningforWebAgent
论文链接:
https ://arxiv. org/abs/2507. 02592
代码仓库:
https ://github. com/Alibaba-NLP/WebAgent
二、技术创新:从高不确定性任务构建到高效训练范式
数据构造及推理轨迹获取
WebSailor的成功源于一套系统性的技术创新。其核心在于既要“挖井造水”(构建足够困难的训练任务),又要“授之以渔”(设计高效的训练策略)。具体包括:构建高不确定性、高复杂度的任务数据集SailorFog-QA,重构推理轨迹来提升监督信号质量,结合冷启动的RFT策略和高效的强化学习算法DUPO,从而打造出一个强大的post-training。
开源模型之所以难以掌握BrowseComp这类极难任务,一个重要原因在于训练数据的不确定性不够或是不确定性易于消解,WebSailor团队首先对信息检索类任务进行了分类,可以分为三个level:
Level-1:低不确定性且易于消解的任务。这类任务的不确定性很低,且容易被消除。例如,可以利用模型自身的内部知识或通过单次、直接的网页搜索就能解答的问题。
Level-2:初始不确定性高但有明确解决路径的任务。这类任务(例如Multi-hopQA)虽然初始不确定性较高,但遵循一条清晰的解决路径。即使步骤繁多,任务中的各个实体也由明确的逻辑关联,因此可以通过一系列结构化的行动来降低不确定性。
Level-3:高不确定性与高消解难度的任务(本文的研究重点)。此类问题兼具高度的不确定性与极高的消解难度。其内部实体以复杂、涌现的方式相互耦合,不存在预设的推理路径。要解决这些问题,模型必须进行创造性的探索,并形成难以人工预先指定的新颖推理范式。
过去的大多数开源数据集只涉及低不确定性或结构清晰的多跳问答,即所谓Level1或Level2难度的问题。模型从未真正见过Level3难度的挑战,即那些充满不确定性、无现成解题路径、需要复杂组合推理的问题。为此,WebSailor团队专门构建了SailorFog-QA数据集,用于大幅提升模型对高不确定性任务的适应能力。
首先通过模拟随机游走(randomwalk)的方式,在真实网页环境中构建知识图谱。
起点选择:为保证问题的挑战性,从维基数据(Wikidata)等知识库中选取信息较少或关联模糊的实体(fuzzyentity)作为图谱的初始节点。
随机扩展:以该实体为起点,在互联网上进行信息抓取,并从中提取新的相关实体及它们之间的关系,以随机的方式扩展图谱。
结构特点:该过程生成的是一个高度非线性的知识网络。与传统多跳推理任务中常见的线性链式结构不同,这种随机生成的图结构不存在预定义的、清晰的解答路径。它为智能体构造了一个复杂的、需要探索的信息环境,迫使其发展出更灵活的推理策略。
在构建了复杂的知识图谱后,通过以下步骤生成问答对:
子图采样:从知识图谱中采样子图,并依据子图中的实体与关系设计问题和答案。这些问题通常涉及多个交叉的实体和关系。
信息模糊化(Obfuscation):为了进一步提升任务难度,我们对问题中的关键信息进行了刻意的模糊化处理。例如:将精确的时间(如“1997年”)处理为模糊的时间段(如“20世纪末”),将具体的地点(如铁岭市)模糊为更大的范围(东北某地级市),使用定性描述替代定量数据(如“市场占有率不到1%”)。这种信息模糊化策略显著增加了问题的初始不确定性,使模型无法依赖简单的关键词匹配或直接查找来获得答案,而必须进行深度的推理、比较和信息整合。
基于子图采样的SailorFog-QA具有如下优点:
源于真实世界:所有数据均基于真实互联网,确保模型训练环境与实际应用场景一致,避免了在来源单一的数据(例如仅从Wikipedia获取信息)上训练的模型到真实环境中泛化性差。
推理模式多样:子图的复杂拓扑结构自然催生了需要组合、比较、演绎等多种高级推理能力的问题,可以保证模型获取不同的reasoningpattern。
高度可扩展:图的可采样子图数与图的规模是非线性关系,而构图成本与图的规模是线性关系,这使得这种方法能以很低的成本scaling。
有了高不确定性的level-3QA,要进行RFT的冷启动还需要高质量trajectory,虽然开源模型在这些复杂问题上正确率不高,但通过拒绝采样,依然可以获得足够的冷启动数据。可以借助QWQ、DeepSeek-R1等强大的开源推理模型(LRM)来生成解题轨迹,但直接模仿它们却有很多问题。一方面这些LRM的思维过程往往带有强烈的风格,冗长且程式化。直接拟合会限制模型自身的灵活性和自我探索(self-exploration)能力;另一方面高度复杂的agent任务甚至需要几十轮的工具调用,过长的推理会导致模型受限于其contextlimit。为此,WebSailor提出了一种创新的推理重构方法,只保留这些LRM成功解题的“行动-观察”序列(Action-ObservationTrace),这相当于保留了“做什么”和“看到了什么”的客观事实。抛弃LRM原始的、冗长的思考过程(Thought)。利用另一个LLM,为每一步行动(Action)和观察(Observation)反向生成一个简洁、清晰、直指目标的reasoningprocess,这样得到的训练数据,既包含了正确的推理逻辑,又去除了风格污染和冗余信息,形成了一个干净、高效的监督信号。
冷启动与强化学习:两阶段训练
WebSailor的训练分为两个阶段。
第一阶段:RFT冷启动。俗话说“万事开头难”对于需要几十步才能解决的复杂任务,让一个非推理模型从零开始通过强化学习(RL)探索,会面临指令遵循能力不足(格式错误多)和奖励(reward)过于稀疏的问题。因此,我们先用上一步生成的几千条高质量轨迹进行拒绝采样微调(RFT),给模型冷启动。这一步一方面教会模型基本的工具使用规范和模仿较强的LRM在ReAct框架下的一些推理范式。
第二阶段:DUPO强化学习。在模型具备基础能力后,我们引入了的高效强化学习算法——DUPO(DuplicatingSamplingPolicyOptimization)来进一步提升模型的泛化能力和采样效率(samplingefficiency)。Agent的RL训练因涉及与环境的大量交互而异常缓慢,DUPO通过双重动态采样策略解决了这一痛点:
训练前过滤(Pre-filtering):在训练开始前,首先剔除模型已能100%解决的简单任务。此举旨在避免在Rollout过程中生成无效的训练样本,将计算资源集中于模型需要提升的领域。
训练中复制(In-trainingDuplication):此为DUPO的核心。作为对比,DAPO算法会在训练中剔除整组成败结果一致(全对或全错)的样本,并补充新样本。然而,这会导致批次(batch)内不同样本需串行执行Rollout,在涉及大量工具调用的Agent训练中效率极低。DUPO则直接在批次内随机复制那些结果存在差异(即奖励标准差不为0)的轨迹(trajectory)来填充批次。这种设计保持了数据处理的并行性,从而显著提升了训练效率。
相比DAPO,DUPO将Agent的RL训练速度提升了约2-3倍。此外,在WebSailor的训练中还设计了严格的复合奖励机制,从格式规范性与答案准确性两个维度评估轨迹。只有当模型严格遵循预设的ReAct范式并最终得出正确答案时,才能获得高额奖励。这一设计旨在有效抑制奖励投机(RewardHacking)行为,激励模型优化其推理链的完整性与有效性。
三、实验结果:在复杂和简单任务上均超过DeepSeek-R1,Grok-3,GPT-4. 1等开闭源模型

在四个任务上WebSailor都超越了所有开源的模型和agent,其优势在极具挑战性的BrowseComp-en和BrowseComp-zh基准测试上表现得尤为突出。这一结果验证了作者的核心假设:在体现复杂且难以简化不确定性的数据上进行训练,能够赋予智能体强大且具有普适性的推理策略。WebSailor-3B和WebSailor-7B更加鲜明地展示了其方法的有效性,尽管规模较小,WebSailor-7B在BrowseComp-en上取得了6. 7的准确率,显著超过了基于更大32B模型开发的agent。这突显了其独特的训练范式——精巧的数据合成和有针对性的强化学习——而非单纯依赖模型规模,是性能提升的关键因素。
对简单任务的兼容性:
虽然WebSailor只在高复杂度、高不确定性任务上进行了训练,但对简单任务也表现出了向下兼容的能力。WebSailor在SimpleQA基准数据集的一个子集上对其进行了评估。该基准的特点是问题准确度高、基于事实且条件简单,对于前沿的大语言模型来说,直接作答仍具有挑战性。结果如下图所示,几乎所有基于智能体的方法的表现都优于直接回答,而WebSailor超越了所有其他方法,展现了其在简单任务上的兼容性和高效性。
SailorFog-QA复杂性的验证
作者对比了SailorFog-QA和之前开源agent训练数据以及BrowseComp的工具调用(tool-call)分布,结果如下所示,可以看出SailorFog-QA呈现出长尾分布,大量样本需要超过五次工具调用,部分轨迹甚至超过二十次交互。更为重要的是,这一分布与BrowseComp-en基准集自身的复杂度分布非常相似。需要注意的是,图中展示的是筛选之前的数据,在最终筛选阶段只保留了那些工具调用次数超过五次的轨迹。这一有针对性的数据构建策略确保模型训练于不仅复杂且结构上更具代表性的难推理任务,从而为模型赋予了实现强大多步推理能力的基础。
四、结论与未来展望
WebSailor旨在缩小开源与顶尖闭源系统在复杂信息检索任务上能力鸿沟的网页智能体系列。现有开源智能体性能瓶颈的核心在于,其训练数据普遍缺乏真实世界中那种“高且难以归约”的内在不确定性。为解决此问题,作者提出了一套创新的方法论:首先,通过SailorFog-QA数据合成pipeline,能够规模化地生成具有复杂拓扑结构与信息模糊性的高难度问题,迫使模型学习超越线性推理的策略;其次,开创性地采用推理链重构技术,既利用了专LRM的解题能力,又通过重构简洁、高效的思路,避免了其冗长风格对模型探索能力的束缚;最后,少量样本的冷启动(RFT)与专为agent优化的DUPO强化学习算法相结合,构建了一套高效且稳定的两阶段训练流程。
WebSailor的成功对开源社区具有重要意义。它证明了通往超人智能体能力的路径不仅依赖于模型规模的堆砌,更在于训练范式的革新。其中提出的“高难度任务合成→精炼逻辑监督→高效强化学习”这一通用蓝图,为其他领域开发高级agent提供了可借鉴的思路。这鼓励整个社区从模仿人类可解问题,转向主动构建能系统性激发模型涌现全新策略的极限挑战,从而真正推动AI能力的边界。
尽管取得了显著进展,作者认为该工作仍存在一些局限,这也为未来研究指明了方向。当前训练受限于32k的上下文长度,这在一定程度上限制了模型处理更长链条任务的潜力。同时,DUPO算法虽有优化,但其同步训练的本质依然是效率瓶颈。展望未来,首要技术目标是迁移到异步强化学习框架,这将大幅提升训练效率,使更深层次、更长周期的探索式学习成为可能。在更宏大的愿景上,划将“高不确定性任务”的定义从信息检索推广至更广阔的维度。例如,构建需要整合多模态信息、调用更复杂的工具、或是在不同知识领域间进行战略性综合的复杂任务。通过持续设计并挑战这些处于当前AI能力边缘甚至之外的新问题,我们才能最终创造出不仅能检索信息,更能进行推理、发现和创造的agent,成为增强人类智慧的强大伙伴。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录