AI

阿里推出多模态智能体WebWatcher,深化深度研究

发布时间:2025年8月18日    来源:szf
阿里推出多模态智能体WebWatcher,深化深度研究

快速阅读: 阿里巴巴自然语言处理团队推出WebWatcher,开源多模态深度研究智能体,整合网页浏览、图像搜索等功能,解决现有系统处理复杂多模态任务的局限,全面领先于GPT-4o等模型。

阿里巴巴自然语言处理团队宣布推出WebWatcher,这是一个开源的多模态深度研究智能体,旨在突破现有闭源系统和开源Agent在多模态深度研究领域的局限性。WebWatcher整合了网页浏览、图像搜索、代码解释器和内部OCR等多种工具,能够像人类研究员一样处理复杂的多模态任务,展现强大的视觉理解、逻辑推理、知识调用、工具调度和自我验证能力。

阿里巴巴团队指出,尽管现有的闭源系统如OpenAI的DeepResearch在文本深度研究方面表现出色,但它们大多局限于纯文本环境,难以处理现实世界中复杂的图像、图表和混合内容。现有的开源Agent也面临两大瓶颈:一类是专注于文本检索的Agent,虽然能够整合信息,但无法处理图像;另一类是视觉Agent,虽然能够识别图像,但缺乏跨模态推理和多工具协同能力。WebWatcher正是为了解决这些瓶颈而设计的。

WebWatcher的技术方案涵盖了从数据构建到训练优化的完整链路,其核心目标是使多模态Agent在高难度多模态深度研究任务中具备灵活推理和多工具协作能力。为此,研究团队设计了一个全自动多模态数据生成流程,通过随机游走收集跨模态知识链,并引入信息模糊化技术,提升任务的不确定性和复杂性。所有复杂问题样本通过QA-to-VQA转换模块扩展为多模态版本,进一步增强模型的跨模态理解能力。

在高质量推理轨迹构建与后训练方面,WebWatcher采用Action-Observation驱动的轨迹生成方法,通过收集真实的多工具交互轨迹并进行监督微调(SFT),使模型在训练初期快速掌握多模态ReAct式推理和工具调用的基本模式。随后,模型进入强化学习阶段,通过GRPO进一步提升多模态Agent在复杂环境下的决策能力。

为了全面验证WebWatcher的能力,研究团队提出了BrowseComp-VL,这是BrowseComp在视觉-语言任务上的扩展版本,旨在逼近人类专家的跨模态研究任务难度。在多轮严格评测中,WebWatcher在复杂推理、信息检索、知识整合以及聚合类信息寻优等任务上全面领先于当前主流的开源与闭源多模态大模型。

具体来说,在人类终极考试(Humanity’s Last Exam, HLE-VL)这一多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数夺魁,大幅领先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)和Qwen2.5-VL-72B(8.6%)等代表性模型。在更贴近真实多模态搜索的MMSearch评测中,WebWatcher的Pass@1得分高达55.3%,显著领先于Gemini2.5-flash(43.9%)和GPT-4o(24.1%)。在LiveVQA评测中,WebWatcher的Pass@1成绩达到58.7%,领先于其他主流模型。在最具综合挑战的BrowseComp-VL基准上,WebWatcher以27.0%的平均得分(Pass@1)遥遥领先,成绩提升超过一倍。

仓库地址:https://github.com/Alibaba-NLP/WebAgent

(以上内容均由Ai生成)

你可能还想读

韩半导体出口创纪录,AI芯片繁荣掩盖改革风险

韩半导体出口创纪录,AI芯片繁荣掩盖改革风险

快速阅读: 韩国今年半导体出口预计超1650亿美元,前九月已达1197亿美元,同比增长17%,占总出口23%。增长因人工智能服务器需求和内存价格上涨,在全球经济放缓中展现韧性。 据韩国贸易、工业和资源部本周消息,今年韩国半导体出口预计将达到 […]

发布时间:2025年10月24日
纽约消防局启用AI摄像头,提前预警森林火灾

纽约消防局启用AI摄像头,提前预警森林火灾

快速阅读: 纽约市消防局推出太阳能驱动、AI支持的烟雾检测摄像头,可在火势蔓延前及时发现火灾,计划扩展至五个行政区,增强早期预警能力,保护高风险区域安全。 纽约市消防局(FDNY)的灌木火灾特遣队最近推出了最新的太阳能驱动、人工智能支持的烟 […]

发布时间:2025年10月24日
谷歌云TPU助力Anthropic扩大Claude训练规模

谷歌云TPU助力Anthropic扩大Claude训练规模

快速阅读: Anthropic与Google深化合作,扩大计算能力,支持Claude满足快速增长的客户需求,巩固行业领先位置。 Anthropic 和 Google 有着长期的合作关系,此次合作的进一步扩展将帮助我们继续扩大所需的计算能力, […]

发布时间:2025年10月24日
中兴呼吁重耦合计算与网络,推动AI可持续发展

中兴呼吁重耦合计算与网络,推动AI可持续发展

快速阅读: 中兴通讯CEO徐子阳呼吁电信与计算行业重新耦合,以适应AI需求增长,提出AI Core战略,展示多款支持AI的产品,强调可持续发展与成本控制,与泰国AIS合作提升网络效率。 近年来,电信和计算行业纷纷采取解耦策略,通过技术与产品 […]

发布时间:2025年10月24日
微软推出新AI角色Mico,赋予Copilot虚拟助手新面貌

微软推出新AI角色Mico,赋予Copilot虚拟助手新面貌

快速阅读: 微软推出新AI角色Mico,作为Copilot虚拟助手的化身,旨在为AI聊天机器人增添个性,同时保持友好而不谄媚的形象,通过表情和动作响应用户情绪,目前仅限美国用户使用。 近三十年前令微软Office用户感到厌烦的动画纸夹Cli […]

发布时间:2025年10月24日
英特尔Q3营收137亿美元,同比增长3%成功扭亏为盈

英特尔Q3营收137亿美元,同比增长3%成功扭亏为盈

快速阅读: 英特尔公布2025年第三季度财报,营收137亿美元,同比增长3%,毛利率达38.2%。各业务部门表现不一,CCG营收增长5%,DCAI和代工业务略有下降。期间获多笔重大投资,推进技术创新和市场扩展。 感谢IT之家网友HH_KK、 […]

发布时间:2025年10月24日
微软推出AI伴侣Mico,致敬经典Clippy大眼夹

微软推出AI伴侣Mico,致敬经典Clippy大眼夹

快速阅读: 微软推出AI聊天机器人Mico,具有表情丰富的头像,能倾听互动并根据用户操作变换颜色。首次在美国、加拿大和英国推出,支持“Learn Live”模式,旨在加深人际联系。 10 月 24 日消息,北京时间今天凌晨,微软推出了一款名 […]

发布时间:2025年10月24日
英特尔107制程产能紧张,AI PC出货预期不变

英特尔107制程产能紧张,AI PC出货预期不变

快速阅读: 英特尔在2025Q3财报电话会议中宣布,Intel 10/7制程节点供应紧张,尽管第三季度晶圆交付量超出预期,仍无法满足客户需求。英特尔计划利用现有库存并引导客户转向其他产品,预计2026年一季度供应更紧。同时,英特尔维持年底前 […]

发布时间:2025年10月24日