阿里发布WebShaper,GAIA性能超越Claude 3.5 Sonnet、GPT-4o

发布时间:2025年7月31日    来源:szf
阿里发布WebShaper,GAIA性能超越Claude 3.5 Sonnet、GPT-4o

快速阅读: 据《AIbase – AI新闻资讯》称,近日,阿里通义实验室推出WebAgent系列第四款开源工具WebShaper,该框架采用“形式化驱动”的信息检索范式,在GAIA基准测试中得分60.19,超越多个行业领先模型,显著提升AI在复杂任务中的信息检索与推理能力。

阿里通义实验室(Tongyi Lab)近日重磅推出WebAgent系列的第四款开源工具——WebShaper,这一突破性框架以其创新的“形式化驱动”信息检索范式引发行业热议。据AIbase从社交媒体及相关渠道获悉,WebShaper不仅在GAIA基准测试中取得60.19的高分,超越了Claude3.5Sonnet和GPT-4o,还通过全新的数据生成方法显著提升了AI在复杂任务中的信息检索与推理能力。
从信息驱动到形式化驱动:范式革新的突破 传统的信息检索(IS)方法多以“信息驱动”为核心,但常面临信息结构与推理逻辑错位、知识覆盖有限的问题,导致AI在处理开放性复杂任务时表现不足。WebShaper引入了“形式化驱动”的全新范式,通过系统化的任务形式化方法,重新定义了数据生成与模型训练流程。
这一框架的核心在于:通过逻辑清晰的结构化生成方式,确保训练数据的知识结构与推理结构在语义上高度一致。AIbase了解到,WebShaper利用“代理式扩展器”(Agentic Expander)迭代生成并验证问题,确保数据生成过程可控且条理清晰。这种方法不仅提升了数据的质量,还显著增强了模型在复杂信息检索任务中的表现能力。
GAIA评测创佳绩:60.19分领跑开源模型 WebShaper的性能表现令人瞩目。在GAIA基准测试中,基于WebShaper数据集训练的开源模型取得了60.19的高分,超越了业界领先的Claude3.5Sonnet和GPT-4o,树立了新的开源模型标杆。GAIA作为一项专注于评估AI通用能力的基准,涵盖多模态处理、网页浏览及复杂推理等任务,其高难度设计对AI的综合能力提出了严苛要求。
此外,WebShaper在WebWalkerQA基准测试中也取得了52.50的优异成绩,展现了其在网页遍历与信息检索任务中的强大能力。AIbase认为,这一成果不仅证明了WebShaper在技术上的领先性,也为开源AI社区注入了新的活力。
WebShaper数据集:逻辑驱动的训练新范式 WebShaper的核心创新之一是其数据集生成框架。不同于传统杂乱无章的数据收集方式,WebShaper通过形式化驱动的方法,系统化地生成信息检索任务实例。AIbase获悉,该框架能够根据任务需求生成结构化的训练数据,确保知识与推理逻辑的语义一致性,从而让AI在处理开放性问题时表现更加精准和高效。
例如,WebShaper引入了SailorFog-QA数据集,这是一个高不确定性和高难度的问答基准,通过图采样和信息模糊化技术生成,专为测试模型在复杂场景下的表现而设计。社交媒体反馈显示,开发者对这一数据集的逻辑性和可控性给予高度评价,认为其为AI模型的训练提供了更可靠的基础。
WebAgent生态的持续进化:开源与社区驱动 WebShaper是阿里通义实验室WebAgent系列的 最新 成果,该系列还包括WebWalker、WebDancer和WebSailor。这些工具共同致力于打造自主化信息检索与处理能力,覆盖学术研究、市场分析到日常查询等多种场景。AIbase注意到,WebAgent项目已在GitHub上获得超过4000次星标,显示出开源社区的广泛关注与支持。[](https://www.kdjingpai.com/en/webagent/) WebShaper的开源特性进一步推动了社区的创新。开发者可以自由访问代码与部分数据集,通过调整超参数或结合如DUPO算法的强化学习优化模型性能。此外,WebAgent还提供了WebWalkerQA、GAIA等任务的交互式演示,方便用户直观体验模型的强大功能。AIbase预计,随着社区的持续贡献,WebShaper及其相关工具将在更多场景中展现潜力。
未来展望:推动AI迈向通用智能 WebShaper的发布标志着信息检索领域的一次重要进步,其形式化驱动的范式为AI处理复杂任务提供了新的可能性。AIbase了解到,阿里通义实验室计划进一步扩展WebAgent系列的功能,例如优化多模态处理能力、支持更广泛的语言和场景,甚至探索远程访问高性能模型的部署方式。
社交媒体上,开发者对WebShaper的评价普遍积极,认为其“逻辑清晰、性能卓越”,尤其是在处理需要多步推理和跨模态理解的任务时表现突出。AIbase认为,WebShaper不仅提升了开源模型的竞争力,也为通用人工智能(AGI)的发展奠定了重要基础。
结语 阿里通义实验室的WebShaper以其形式化驱动的创新范式和在GAIA基准中的卓越表现,重新定义了信息检索任务的边界。AIbase将持续跟踪WebAgent系列的 最新 进展,为您带来更多前沿AI技术资讯。让我们共同见证开源AI如何在逻辑驱动与社区协作的推动下,迈向通用智能的新时代! 项目地址:https://github.com/Alibaba-NLP/WebAgent

(以上内容均由Ai生成)

你可能还想读

前LinkedIn高管和AWS专家创办Apex职业训练营,实现千万级收入与千人就业

前LinkedIn高管和AWS专家创办Apex职业训练营,实现千万级收入与千人就业

快速阅读: 阿佩克斯研究所通过培训技术专业人士推动云计算发展,已帮助1000多名学生在微软等公司就业,就业率达90%,无需学位。过去八个月收入超100万美元,推出AI支持的职业保障计划。 2025年8月28日,旧金山 —— 阿佩克斯研究所通 […]

发布时间:2025年8月29日
苹果高管库伊提议收购特斯拉与Netflix,遭库克拒绝

苹果高管库伊提议收购特斯拉与Netflix,遭库克拒绝

快速阅读: 苹果高级副总裁埃迪・库伊长期主张大规模收购,但多次被CEO库克否决,包括特斯拉和Netflix。目前库伊正推动苹果收购人工智能公司Perplexity和Mistral。苹果曾以4亿美元收购Shazam,通过测算广告费确定价格。 […]

发布时间:2025年8月29日
苹果高管库伊力推收购特斯拉Netflix,均遭库克否决

苹果高管库伊力推收购特斯拉Netflix,均遭库克否决

快速阅读: 苹果服务部门高级副总裁埃迪・库伊长期主张大规模收购,特别是特斯拉和Netflix,但均被库克否决。库伊正推动苹果收购人工智能公司,Perplexity和Mistral为主要目标。 IT之家 8 月 28 日消息,昨日《The I […]

发布时间:2025年8月29日
苹果高管库伊曾提议收购特斯拉与Netflix,均被库克拒绝

苹果高管库伊曾提议收购特斯拉与Netflix,均被库克拒绝

快速阅读: 苹果服务部门高级副总裁埃迪・库伊长期主张大规模收购,包括特斯拉和Netflix,但均被库克否决。库伊正推动苹果收购人工智能公司,Perplexity和Mistral为主要目标。 IT之家 8 月 28 日消息,昨日《The In […]

发布时间:2025年8月28日
苹果高管库伊曾提议收购特斯拉与Netflix,遭库克拒绝

苹果高管库伊曾提议收购特斯拉与Netflix,遭库克拒绝

快速阅读: 苹果服务部门高级副总裁埃迪・库伊长期主张大规模收购,但多次提议被首席执行官蒂姆・库克否决,包括特斯拉和 Netflix。库伊曾推动收购 Beats 和 Shazam,目前正全力推动苹果收购人工智能公司。 IT之家 8 月 28 […]

发布时间:2025年8月28日
特朗普政府欲购英特尔大股,软银此前注资20亿美元

特朗普政府欲购英特尔大股,软银此前注资20亿美元

快速阅读: 美国商务部长卢特尼克确认,政府正争取获得英特尔10%股份,以加深与芯片制造商的财务联系。此举旨在提升美国芯片生产能力,应对中国竞争,同时为政府带来额外收入。 美国商务部长霍华德·卢特尼克周二确认,美国政府正争取获得硅谷先驱英特尔 […]

发布时间:2025年8月20日
六大项目落地临港新片区:总投资超400亿元,涵盖集成电路等关键方向

六大项目落地临港新片区:总投资超400亿元,涵盖集成电路等关键方向

快速阅读: 8月19日,临港新片区成立六周年,总投资超400亿元的6个重大项目集中签约,涵盖集成电路、高端装备、人工智能等领域,推动产业高质量发展。 8月19日,临港新片区揭牌成立六周年之际,总投资额超400亿元的6个重磅项目在临港新片区集 […]

发布时间:2025年8月19日
股票飙升近90%,公司业绩显著提升

股票飙升近90%,公司业绩显著提升

快速阅读: 特拉沃尔夫获谷歌14亿美元债务融资,股价一周涨近90%,将与Fluidstack共建CB-5设施,拓展人工智能基础设施。 比特币矿业公司特拉沃尔夫(Terawulf,纳斯达克代码:WULF)的股价在过去一周内飙升近90%,主要得 […]

发布时间:2025年8月19日