阿里开源WebShaper,GAIA评测超Claude4-Sonnet

发布时间:2025年7月31日    来源:szf
阿里开源WebShaper,GAIA评测超Claude4-Sonnet

快速阅读: 据《AIbase – AI新闻资讯》称,近日,阿里云通义实验室宣布开源AI智能体项目WebAgent,包括WebShaper和WebSailor两大核心组件。该项目在自主信息检索与多步推理方面展现卓越性能,广泛应用于学术研究、商业分析等领域,显著降低企业和开发者的使用成本,推动AI智能体技术进步。

近日,阿里云通义实验室宣布正式开源自主搜索AI智能体项目WebAgent,其中旗舰组件WebShaper和WebSailor在网络智能体领域引发广泛关注。这款突破性的AI工具以端到端的自主信息检索与多步推理能力,展现出接近甚至超越人类专家的网络交互水平。

WebAgent是阿里巴巴通义实验室开发的一款开源AI智能体,旨在模拟人类在网络环境中的感知、决策和行动循环。其核心目标是通过自主搜索和多步推理,高效处理复杂、模糊的网络任务。WebAgent包含多个关键组件,其中WebSailor和WebShaper是技术创新的亮点。官方介绍称,WebAgent能够主动搜索学术数据库、新闻网站和专业论坛,筛选关键信息并生成结构化报告,广泛适用于学术研究、商业分析和日常查询等场景。

在权威评测集BrowseComp上,WebSailor-72B模型表现尤为突出,超越了DeepSeek R1和Grok-3等闭源模型,仅次于OpenAI的DeepResearch,登顶开源网络智能体榜单。WebAgent还在GAIA和WebWalkerQA基准测试中分别取得60.19分和52.2分的优异成绩,展现了其在复杂任务中的卓越性能。

WebShaper是WebAgent生态中的核心创新,提出了一种基于“形式化驱动”的数据合成方法,解决了AI在高不确定性任务中的推理难题。WebShaper通过集合论构建了信息搜索任务的数学化表示框架,利用“知识投影”概念,将复杂搜索过程抽象为实体集合的操作。例如,查询“出生于90年代的球员在2004-05赛季为东德足球队效力”时,WebShaper能系统化地生成训练数据,确保AI在多步推理中保持准确性。

WebShaper数据集覆盖体育、学术、政治、娱乐等多个领域,其中体育类问题占21%,学术类占17%,确保了知识的广泛适应性。其逐层扩展策略避免了推理捷径和信息冗余,使AI必须通过完整推理路径得出答案。在实验中,WebShaper训练的模型在相同数据量下,性能显著优于WebWalkerQA和E2HQA等传统数据集。

作为WebAgent的“大脑”,WebSailor是一个大规模语言模型,负责理解用户意图、制定浏览策略并决定操作步骤。最新版本WebSailor-72B通过阿里云FunctionAI实现一键部署,用户仅需10分钟即可完成配置,极大降低了使用门槛。WebSailor在高不确定性任务中表现出色,例如处理模糊查询或需要跨平台信息整合的复杂场景。

WebSailor的训练采用了创新的SailorFog-QA数据集,通过子图采样和信息模糊化技术模拟真实网络环境中的复杂知识图谱。这种方法赋予了模型处理“超人类”任务的能力,例如在BrowseComp测试中,WebSailor-32B和72B版本不仅领先所有开源模型,还超越了部分闭源系统。

WebAgent的成功离不开其两大模块:WebDancer和WebWalker。WebDancer是一个端到端智能体训练框架,通过四阶段训练(数据构建、轨迹采样、监督微调、强化学习)提升AI的多步搜索能力。最新版本WebDancer-QwQ-32B在GAIA Pass@3评测中取得64.1%的优异成绩。WebWalker则是一个基准测试工具,用于评估语言模型在复杂网页遍历中的表现,为开发者优化算法提供了标准化的评估体系。

WebAgent的混合推理模式通过“思维预算机制”动态分配计算资源,实现快速响应简单查询与深度推理复杂任务的平衡。在实际应用中,WebAgent能在10分钟内完成特斯拉与小鹏汽车配置表的爬取与分析,或从PubMed等数据库提取临床试验数据并生成溯源报告,效率远超人工。

WebAgent的开源不仅降低了企业和开发者的使用成本,还为全球AI社区提供了工业级训练框架和评估标准。其GitHub仓库已获超4000次星标,位列GitHub trending第一,Huggingface月度第三。WebSailor的训练策略——高难度任务合成、小规模冷启动、高效强化学习优化——为开源社区攻克复杂推理任务提供了宝贵思路。

从学术研究到商业决策,WebAgent的应用潜力巨大。例如,研究人员可利用其快速检索ACL2025论文主题,商业用户可分析2025年AI芯片市场趋势,普通用户则能获取旅游规划或健康咨询等个性化建议。WebAgent的开源标志着AI智能体从技术演示迈向生产力场景,未来有望推动跨模态信息整合和开放领域推理的进一步突破。

GitHub: https://github.com/Alibaba-NLP/WebAgent
huggingface: https://huggingface.co/datasets/Alibaba-NLP/WebShaper
model scope: https://modelscope.cn/datasets/iic/WebShaper

(以上内容均由Ai生成)

你可能还想读

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

快速阅读: Apriority宣布完成230万美元种子轮融资,由Techstars等领投。平台利用AI技术优化债务管理,帮助借款人节省利息,掌握财务控制权,尤其惠及低收入家庭。 旧金山,2025年10月23日 —— 以借款人为核心的服务平台 […]

发布时间:2025年10月23日
Cercli获1200万美元融资,加速AI劳动力平台发展

Cercli获1200万美元融资,加速AI劳动力平台发展

快速阅读: 阿联酋工作管理平台Cercli获1200万美元A轮融资,由Picus Capital领投。资金将用于产品开发、AI创新及市场扩展,目标中东、欧洲和北美。Cercli实现每月22%增长率,客户覆盖50国。 总部位于阿联酋的工作管理 […]

发布时间:2025年10月23日
扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

快速阅读: Meta宣布裁减AI部门约600名工程师,涉及FAIR等多个团队,旨在精简业务提高效率。CEO扎克伯格重申AI仍是公司核心,将继续投资高级机器学习和超级智能项目。 Meta近日宣布从其人工智能(AI)部门裁员约600名工程师,此 […]

发布时间:2025年10月23日
Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

快速阅读: 风险投资公司a16z计划筹集100亿美元,重点投资AI和国防,未提及加密货币。此举令人意外,因a16z曾是加密领域的重要支持者,近期仍积极投资相关项目。 据报道,风险投资公司安德森·霍洛维茨(a16z)正在寻求筹集约100亿美元 […]

发布时间:2025年10月23日
花旗资助香港390万港元,助力贫困青年掌握AI技能

花旗资助香港390万港元,助力贫困青年掌握AI技能

快速阅读: 花旗基金会向香港“改变年轻生命基金会”捐赠50万美元,支持为期两年的“求职挑战”项目,提升弱势青少年的人工智能技能和求职能力,增强其就业竞争力。 花旗基金会向香港“改变年轻生命基金会”拨款50万美元(约390万港元),用于为期两 […]

发布时间:2025年10月23日
AI成新界面,企业转型加速

AI成新界面,企业转型加速

快速阅读: 自动驾驶技术从微小升级到移除方向盘,彻底改变车辆设计和旅程体验,重塑汽车与环境的关系。AI发展类似,通过小步快跑实现重大转变,成为统一的用户界面,改善客户互动体验。 多年来,汽车自主驾驶功能的发展似乎只是一系列微小的升级,比如车 […]

发布时间:2025年10月23日
实博蒂克斯成立顾问委员会,推动AI技术发展

实博蒂克斯成立顾问委员会,推动AI技术发展

快速阅读: Realbotix成立顾问委员会,增强AI技术,调整董事会。成员包括谷歌萨利姆·哈桑及转任的安德鲁·德苏扎,目标推进AI与机器人技术发展。弗雷德·派退休,公司感谢其贡献。调整优化产品,强化全球市场地位。 Realbotix公司宣 […]

发布时间:2025年10月23日
OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

快速阅读: OpenAI宣布在美国扩展Stargate数据中心计划,包括威斯康星州Lighthouse项目,预计2028年完工,将开发近1吉瓦电力,采用可持续能源和环保措施,创造数千就业岗位。 该设施是OpenAI在披露美国五个Starga […]

发布时间:2025年10月23日