阿里开源WebAgent项目WebShaper,性能超Claude4-Sonnet

发布时间:2025年7月31日    来源:szf
阿里开源WebAgent项目WebShaper,性能超Claude4-Sonnet

快速阅读: 据《AIbase – AI新闻资讯》称,近日,阿里云通义实验室宣布开源自主研发的AI智能体项目WebAgent,包括WebShaper和WebSailor两个核心组件。这些组件在网络智能体领域表现出色,能够自主搜索、多步推理,广泛应用于学术研究、商业分析等领域。WebAgent在多个权威评测中取得优异成绩,标志着AI智能体从技术演示迈向实际应用。

近日,阿里云通义实验室宣布正式开源其自主研发的AI智能体项目WebAgent,其中旗舰组件WebShaper和WebSailor在网络智能体领域引起广泛关注。这款突破性的AI工具,凭借端到端的自主信息检索与多步推理能力,展示了接近甚至超越人类专家的网络交互水平。

WebAgent是一款由阿里巴巴通义实验室开发的开源AI智能体,旨在模拟人类在网络环境中的感知、决策和行动循环。其核心目标是通过自主搜索和多步推理,高效处理复杂、模糊的网络任务。WebAgent包含多个关键组件,其中WebSailor和WebShaper是技术创新的亮点。官方介绍称,WebAgent能够主动搜索学术数据库、新闻网站和专业论坛,筛选关键信息并生成结构化报告,广泛适用于学术研究、商业分析和日常查询等场景。

在权威评测集BrowseComp上,WebSailor-72B模型表现尤为突出,超越了DeepSeek R1和Grok-3等闭源模型,仅次于OpenAI的DeepResearch,登顶开源网络智能体榜单。WebAgent还在GAIA和WebWalkerQA基准测试中分别取得了60.19分和52.2分的优异成绩,展现了其在复杂任务中的卓越性能。

WebShaper是WebAgent生态中的核心创新,提出了一种基于“形式化驱动”的数据合成方法,解决了AI在高不确定性任务中的推理难题。WebShaper通过集合论构建了信息搜索任务的数学化表示框架,利用“知识投影”概念,将复杂搜索过程抽象为实体集合的操作。例如,在查询“出生于90年代的球员在2004-05赛季为东德足球队效力”时,WebShaper能系统化地生成训练数据,确保AI在多步推理中保持准确性。

WebShaper数据集覆盖体育、学术、政治、娱乐等多个领域,其中体育类问题占21%,学术类占17%,确保了知识的广泛适应性。其逐层扩展策略避免了推理捷径和信息冗余,使AI必须通过完整推理路径得出答案。在实验中,WebShaper训练的模型在相同数据量下,性能显著优于WebWalkerQA和E2HQA等传统数据集。

作为WebAgent的“大脑”,WebSailor是一个大规模语言模型,负责理解用户意图、制定浏览策略并决定操作步骤。最新版本WebSailor-72B通过阿里云FunctionAI实现一键部署,用户仅需10分钟即可完成配置,极大降低了使用门槛。WebSailor在高不确定性任务中表现出色,例如处理模糊查询或需要跨平台信息整合的复杂场景。

WebSailor的训练采用了创新的SailorFog-QA数据集,通过子图采样和信息模糊化技术模拟真实网络环境中的复杂知识图谱。这种方法赋予了模型处理“超人类”任务的能力,例如在BrowseComp测试中,WebSailor-32B和72B版本不仅领先所有开源模型,还超越了部分闭源系统。

WebAgent的成功离不开其两大模块:WebDancer和WebWalker。WebDancer是一个端到端智能体训练框架,通过四阶段训练(数据构建、轨迹采样、监督微调、强化学习)提升AI的多步搜索能力。最新版本WebDancer-QwQ-32B在GAIA Pass@3评测中取得64.1%的优异成绩。WebWalker则是一个基准测试工具,用于评估语言模型在复杂网页遍历中的表现,为开发者优化算法提供了标准化的评估体系。

WebAgent的混合推理模式通过“思维预算机制”动态分配计算资源,实现快速响应简单查询与深度推理复杂任务的平衡。在实际应用中,WebAgent能在10分钟内完成特斯拉与小鹏汽车配置表的爬取与分析,或从PubMed等数据库提取临床试验数据并生成溯源报告,效率远超人工。

WebAgent的开源不仅降低了企业和开发者的使用成本,还为全球AI社区提供了工业级训练框架和评估标准。其GitHub仓库已获超4000次星标,位列GitHub trending第一,Huggingface月度第三。WebSailor的训练策略——高难度任务合成、小规模冷启动、高效强化学习优化——为开源社区攻克复杂推理任务提供了宝贵思路。

从学术研究到商业决策,WebAgent的应用潜力巨大。例如,研究人员可利用其快速检索ACL2025论文主题,商业用户可分析2025年AI芯片市场趋势,普通用户则能获取旅游规划或健康咨询等个性化建议。WebAgent的开源标志着AI智能体从技术演示迈向生产力场景,未来有望推动跨模态信息整合和开放领域推理的进一步突破。

GitHub: https://github.com/Alibaba-NLP/WebAgent
Huggingface: https://huggingface.co/datasets/Alibaba-NLP/WebShaper
Model Scope: https://modelscope.cn/datasets/iic/WebShaper

(以上内容均由Ai生成)

你可能还想读

前LinkedIn高管和AWS专家创办Apex职业训练营,实现千万级收入与千人就业

前LinkedIn高管和AWS专家创办Apex职业训练营,实现千万级收入与千人就业

快速阅读: 阿佩克斯研究所通过培训技术专业人士推动云计算发展,已帮助1000多名学生在微软等公司就业,就业率达90%,无需学位。过去八个月收入超100万美元,推出AI支持的职业保障计划。 2025年8月28日,旧金山 —— 阿佩克斯研究所通 […]

发布时间:2025年8月29日
苹果高管库伊提议收购特斯拉与Netflix,遭库克拒绝

苹果高管库伊提议收购特斯拉与Netflix,遭库克拒绝

快速阅读: 苹果高级副总裁埃迪・库伊长期主张大规模收购,但多次被CEO库克否决,包括特斯拉和Netflix。目前库伊正推动苹果收购人工智能公司Perplexity和Mistral。苹果曾以4亿美元收购Shazam,通过测算广告费确定价格。 […]

发布时间:2025年8月29日
苹果高管库伊力推收购特斯拉Netflix,均遭库克否决

苹果高管库伊力推收购特斯拉Netflix,均遭库克否决

快速阅读: 苹果服务部门高级副总裁埃迪・库伊长期主张大规模收购,特别是特斯拉和Netflix,但均被库克否决。库伊正推动苹果收购人工智能公司,Perplexity和Mistral为主要目标。 IT之家 8 月 28 日消息,昨日《The I […]

发布时间:2025年8月29日
苹果高管库伊曾提议收购特斯拉与Netflix,均被库克拒绝

苹果高管库伊曾提议收购特斯拉与Netflix,均被库克拒绝

快速阅读: 苹果服务部门高级副总裁埃迪・库伊长期主张大规模收购,包括特斯拉和Netflix,但均被库克否决。库伊正推动苹果收购人工智能公司,Perplexity和Mistral为主要目标。 IT之家 8 月 28 日消息,昨日《The In […]

发布时间:2025年8月28日
苹果高管库伊曾提议收购特斯拉与Netflix,遭库克拒绝

苹果高管库伊曾提议收购特斯拉与Netflix,遭库克拒绝

快速阅读: 苹果服务部门高级副总裁埃迪・库伊长期主张大规模收购,但多次提议被首席执行官蒂姆・库克否决,包括特斯拉和 Netflix。库伊曾推动收购 Beats 和 Shazam,目前正全力推动苹果收购人工智能公司。 IT之家 8 月 28 […]

发布时间:2025年8月28日
特朗普政府欲购英特尔大股,软银此前注资20亿美元

特朗普政府欲购英特尔大股,软银此前注资20亿美元

快速阅读: 美国商务部长卢特尼克确认,政府正争取获得英特尔10%股份,以加深与芯片制造商的财务联系。此举旨在提升美国芯片生产能力,应对中国竞争,同时为政府带来额外收入。 美国商务部长霍华德·卢特尼克周二确认,美国政府正争取获得硅谷先驱英特尔 […]

发布时间:2025年8月20日
六大项目落地临港新片区:总投资超400亿元,涵盖集成电路等关键方向

六大项目落地临港新片区:总投资超400亿元,涵盖集成电路等关键方向

快速阅读: 8月19日,临港新片区成立六周年,总投资超400亿元的6个重大项目集中签约,涵盖集成电路、高端装备、人工智能等领域,推动产业高质量发展。 8月19日,临港新片区揭牌成立六周年之际,总投资额超400亿元的6个重磅项目在临港新片区集 […]

发布时间:2025年8月19日
股票飙升近90%,公司业绩显著提升

股票飙升近90%,公司业绩显著提升

快速阅读: 特拉沃尔夫获谷歌14亿美元债务融资,股价一周涨近90%,将与Fluidstack共建CB-5设施,拓展人工智能基础设施。 比特币矿业公司特拉沃尔夫(Terawulf,纳斯达克代码:WULF)的股价在过去一周内飙升近90%,主要得 […]

发布时间:2025年8月19日