阿里开源WebShaper,GAIA评测超Claude4-Sonnet
快速阅读: 据《AIbase – AI新闻资讯》称,近日,阿里云通义实验室宣布开源AI智能体项目WebAgent,包括WebShaper和WebSailor两大核心组件。该项目在自主信息检索与多步推理方面展现卓越性能,广泛应用于学术研究、商业分析等领域,显著降低企业和开发者的使用成本,推动AI智能体技术进步。
近日,阿里云通义实验室宣布正式开源自主搜索AI智能体项目WebAgent,其中旗舰组件WebShaper和WebSailor在网络智能体领域引发广泛关注。这款突破性的AI工具以端到端的自主信息检索与多步推理能力,展现出接近甚至超越人类专家的网络交互水平。
WebAgent是阿里巴巴通义实验室开发的一款开源AI智能体,旨在模拟人类在网络环境中的感知、决策和行动循环。其核心目标是通过自主搜索和多步推理,高效处理复杂、模糊的网络任务。WebAgent包含多个关键组件,其中WebSailor和WebShaper是技术创新的亮点。官方介绍称,WebAgent能够主动搜索学术数据库、新闻网站和专业论坛,筛选关键信息并生成结构化报告,广泛适用于学术研究、商业分析和日常查询等场景。
在权威评测集BrowseComp上,WebSailor-72B模型表现尤为突出,超越了DeepSeek R1和Grok-3等闭源模型,仅次于OpenAI的DeepResearch,登顶开源网络智能体榜单。WebAgent还在GAIA和WebWalkerQA基准测试中分别取得60.19分和52.2分的优异成绩,展现了其在复杂任务中的卓越性能。
WebShaper是WebAgent生态中的核心创新,提出了一种基于“形式化驱动”的数据合成方法,解决了AI在高不确定性任务中的推理难题。WebShaper通过集合论构建了信息搜索任务的数学化表示框架,利用“知识投影”概念,将复杂搜索过程抽象为实体集合的操作。例如,查询“出生于90年代的球员在2004-05赛季为东德足球队效力”时,WebShaper能系统化地生成训练数据,确保AI在多步推理中保持准确性。
WebShaper数据集覆盖体育、学术、政治、娱乐等多个领域,其中体育类问题占21%,学术类占17%,确保了知识的广泛适应性。其逐层扩展策略避免了推理捷径和信息冗余,使AI必须通过完整推理路径得出答案。在实验中,WebShaper训练的模型在相同数据量下,性能显著优于WebWalkerQA和E2HQA等传统数据集。
作为WebAgent的“大脑”,WebSailor是一个大规模语言模型,负责理解用户意图、制定浏览策略并决定操作步骤。最新版本WebSailor-72B通过阿里云FunctionAI实现一键部署,用户仅需10分钟即可完成配置,极大降低了使用门槛。WebSailor在高不确定性任务中表现出色,例如处理模糊查询或需要跨平台信息整合的复杂场景。
WebSailor的训练采用了创新的SailorFog-QA数据集,通过子图采样和信息模糊化技术模拟真实网络环境中的复杂知识图谱。这种方法赋予了模型处理“超人类”任务的能力,例如在BrowseComp测试中,WebSailor-32B和72B版本不仅领先所有开源模型,还超越了部分闭源系统。
WebAgent的成功离不开其两大模块:WebDancer和WebWalker。WebDancer是一个端到端智能体训练框架,通过四阶段训练(数据构建、轨迹采样、监督微调、强化学习)提升AI的多步搜索能力。最新版本WebDancer-QwQ-32B在GAIA Pass@3评测中取得64.1%的优异成绩。WebWalker则是一个基准测试工具,用于评估语言模型在复杂网页遍历中的表现,为开发者优化算法提供了标准化的评估体系。
WebAgent的混合推理模式通过“思维预算机制”动态分配计算资源,实现快速响应简单查询与深度推理复杂任务的平衡。在实际应用中,WebAgent能在10分钟内完成特斯拉与小鹏汽车配置表的爬取与分析,或从PubMed等数据库提取临床试验数据并生成溯源报告,效率远超人工。
WebAgent的开源不仅降低了企业和开发者的使用成本,还为全球AI社区提供了工业级训练框架和评估标准。其GitHub仓库已获超4000次星标,位列GitHub trending第一,Huggingface月度第三。WebSailor的训练策略——高难度任务合成、小规模冷启动、高效强化学习优化——为开源社区攻克复杂推理任务提供了宝贵思路。
从学术研究到商业决策,WebAgent的应用潜力巨大。例如,研究人员可利用其快速检索ACL2025论文主题,商业用户可分析2025年AI芯片市场趋势,普通用户则能获取旅游规划或健康咨询等个性化建议。WebAgent的开源标志着AI智能体从技术演示迈向生产力场景,未来有望推动跨模态信息整合和开放领域推理的进一步突破。
GitHub: https://github.com/Alibaba-NLP/WebAgent
huggingface: https://huggingface.co/datasets/Alibaba-NLP/WebShaper
model scope: https://modelscope.cn/datasets/iic/WebShaper
(以上内容均由Ai生成)