仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
就在昨天,通义正式开源网络智能体WebSailor,该智能体具备强大的推理和检索能力,发布后在智能体评测集BrowseComp上登顶开源网络智能体榜单。目前WebSailor的构建方案及部分数据集已在Github开源。
WebSailor网络智能体可以应用复杂场景下的检索任务,对于模糊问题可迅速在不同的网页中进行快速检索并推理验证,从而在海量信息中通过严密的多步推理和交叉验证中最终得出检索答案。
同时,针对该智能体的训练,通义实验室团队采用了整套创新的post-training方法,大幅提升了该开源模型在复杂网页推理任务上的表现,在高难度智能体评测集BrowseComp上,WebSailor的成绩超越了DeepSeekR1、Grok-3等模型和智能体,一举登顶开源网络智能体榜单。
开源地址:
https ://github. com/Alibaba-NLP/WebAgent
#检索效果展示
中文任务检索:
英文任务检索:
#模型构建方式
在面对高度不确定、线索模糊的复杂检索任务时,AI既需要主动在广阔的互联网中搜集信息,还需要从海量内容中过滤掉无关的噪声,再通过严密的多步推理和交叉验证,才能将所有线索串联起来。
为此,在构建数据集阶段,通义实验室大规模合成了具有高不确定性的复杂任务数据SailorFog-QA,并基于Qwen模型进行冷启动微调,让模型学到超越人类的复杂推理模式。
同时在该模型训练时,团队还提出了高效的强化学习算法DUPO,基于双阶段动态采样策略,大幅提高了训练效率,确保即使在密集工具交互的情境中,也能快速迭代模型,DUPO将复杂Agent的强化学习训练速度提升了约2–3倍。
#检索性能测评
为了验证WebSailor的实验效果,通义实验室在多个benchmark评测集上进行实测。
BrowseComp是OpenAI开源的浏览器检索效果评测集,旨在评测大模型和智能体的检索性能,发布数月以来,该评测集包含了1266个高难度问题,是目前难度最高的评测集之一,业界尚无开源系统取得接近闭源模型的成绩。
尽管WebSailor仅基于高难度数据训练,但在聚焦普通任务SimpleQA的数据集上,WebSailor的表现也超越了其它方法,展现出极强的兼容性和有效性,验证了WebSailor方法的泛化能力。
#未来展望
WebSailor提供了一个通用的workflow,可借鉴到其他领域的问题中。它强调的“高难度任务合成+小规模冷启动+高效RL优化”的组合拳策略,具有很强的普适性。
未来,开源社区可以参考WebSailor的思路,去攻克更多类似“超越人类能力”的任务——比如开放领域的复杂推理问答、学术知识发现,甚至跨模态的信息整合等。
/END/
进技术交流群请添加AINLP小助手微信(id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区,专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。