谷歌发布Gemini API URL Context,大幅增强AI网页理解能力
快速阅读: 谷歌推出Gemini API URL Context功能,使AI能像人类一样理解网页内容,支持多格式文件,简化开发者操作,提升信息提取效率,5月28日上线。
近日,谷歌在其 AI 技术领域取得了一次重大突破,正式推出了全新的 Gemini API URL Context 功能,该功能旨在使 AI 在浏览网页时具备类似人类的理解能力。5月28日,此功能已在 Google AI Studio 上线。
与常规的链接分享方式不同,URL Context 功能的工作原理更为先进。普通情况下,将链接提供给 AI 后,AI 通常仅通过简单的浏览器工具或搜索引擎插件来读取网页内容,这种方式往往只能获取到网页的部分摘要或信息。而 Gemini 的 URL Context 是一款专为开发者设计的 API,能够精确解析并理解网页上的全部内容,包括 PDF、图片等多格式信息。
具体而言,URL Context 功能可处理高达34MB的网页内容,支持 HTML、JSON 和 CSV 等多种文件格式。谷歌产品负责人 Logan Kilpatrick 指出,这项功能显著简化了开发者的操作流程,只需几行代码即可实现深度信息的提取与处理。与传统的“检索-增强生成”(RAG)流程相比,URL Context 减少了复杂的步骤,无需额外的内容提取、向量存储及检索过程。
该功能的强大之处在于,通过简单的 URL,Gemini 能够从特斯拉的财报中提取出“总资产”和“总负债”等关键数据,而这些信息通常难以通过传统方法获得。此外,它还能识别 PDF 文件中的复杂结构,如表格和脚注。这使开发者能够更迅速、准确地获取所需信息,大幅提升了工作效率。
尽管如此,URL Context 仍存在一些限制。例如,它无法穿透付费墙,对于需要登录才能访问的内容无能为力。同时,该功能不对专用工具(如 YouTube 视频和 Google Docs 等)进行处理。内容处理费用按 Token 数量计算,因此开发者需合理选择信息来源,以控制成本。
URL Context 功能不仅展示了 AI 技术的最新进展,也为未来的信息检索方式提供了新的视角。
(以上内容均由Ai生成)