Google 将 Gemini 打造成一个主动的、个人的通用 AI 助手

快速阅读: 据《印度斯坦时报》称，谷歌在Google I/O大会阐述通用AI助手愿景，强调Gemini更新及多领域AI应用。Gemini 2.5提升推理能力，新增功能如Canvas和Veo 3，月活用户超4亿。谷歌搜索整合AI模式，强化推理与多模态处理。竞争对手也在加速AI工具发展，推动行业进步。

山景城，加利福尼亚州：谷歌表示，强大的人工智能（AI）功能层将迅速在搜索、购物、Workspace、电影制作和视频通信平台中找到相关性和深度。这是其实现通用AI助手愿景的核心，这一愿景在年度Google I/O大会上详细阐述。与此同时，包括OpenAI、Anthropic和微软在内的竞争对手也在其AI工具方面取得重大进展。两项谷歌项目对Gemini的计划转型至关重要。

“更多的智能正在为所有人提供，无论身在何处。世界正在响应，比以往任何时候都更快地采用AI……所有这些进步意味着我们正处于AI平台转变的新阶段。几十年的研究现在正成为现实，惠及世界各地的人们、企业和社区。”谷歌及其母公司Alphabet首席执行官桑达尔·皮查伊表示。

皮查伊引用了Project Starline的例子，这是一种几年前的3D视频流技术，作为新Google Beam AI视频通信平台的基础技术，该平台将于今年晚些时候在惠普的计算设备上推出。其中一个宣称的亮点是——毫米级别的头部动作追踪。

AI代理是一个持续的主题，OpenAI、IBM、Anthropic和微软近期也对此提出了观点。

“我们对Gemini的最新更新是迈向实现通用AI助手愿景的重要步骤，这个助手在日常生活中对你有所帮助，智能且理解你所处的情境，并能在任何设备上为你规划和采取行动。这是我们对Gemini应用的最终目标，一个个性化的、主动的、强大的AI助手，”谷歌DeepMind首席执行官德米斯·哈萨比斯在一个HT参与的会议中指出。

对于谷歌来说，AI代理将是多管齐下的结果，其中包括Gemini 2.5模型增强推理能力，Gemini应用新增Canvas功能，用于创意编程或制作播客，以及新的视频生成模型Veo 3和图像生成器Imagen 4。这项工作基于Project Astra，赋予AI情境感知能力，如视频理解、屏幕共享和记忆。

谷歌表示，Gemini及其Android和iOS应用已超过4亿月活跃用户，全球有700万开发者使用这些模型来构建应用程序。这也标志着Project Mariner的完成，正如哈萨比斯解释的那样，“探索人类与代理交互的未来，从浏览器开始”。现在它包括一个系统，可以同时完成多达十个不同的任务。哈萨比斯说，这些任务可以包括查找信息、预订、购买东西和研究主题等并行进行。

此外，Gemini Live现已向所有用户免费开放，适用于安卓设备以及苹果iPhone。哈萨比斯解释说：“在未来几周内，Gemini Live将更深入地融入你的日常生活。与朋友外出计划？在Gemini Live中讨论细节，它会自动在你的谷歌日历中创建活动。”

谷歌估计，其竞争对手OpenAI的ChatGPT在3月份拥有约6亿月活跃用户。Meta的马克·扎克伯格在9月份表示，Meta AI当时月活跃用户接近5亿。

Gemini 2.5 Pro即将推出的改进功能，增加了新的推理能力，Deep Think模式专注于复杂的数学和编码任务，这与Gemini迈向‘代理AI’愿景相关。这种对复杂推理的关注与行业更广泛的趋势一致，即AI不仅能生成内容，还能执行复杂的解决问题的任务——OpenAI的o1、Anthropic的Claude和xAI的Grok 3就是例子。

“自引入LearnLM以来，我们的专家团队开发的模型家族中的2.5 Pro现在也成为学习领域的领先模型。在头对头比较中评估其教学法和有效性时，教育工作者和专家在各种场景下更喜欢Gemini 2.5 Pro，而不是其他模型，”谷歌DeepMind首席技术官科拉伊·卡武楚格鲁表示。

较轻量的Gemini 2.5 Flash增强了推理能力、多模态处理、代码支持及长上下文处理能力。目前，更新后的2.5 Flash作为‘实验性’版本在Google AI Studio供开发者使用，在Vertex AI供企业使用，以及Gemini应用供所有人使用——预计将在六月初正式发布。

在谷歌的通用AI助手发展中，公司搜索引擎平台起到了关键作用。搜索中的AI模式，率先在美国用户中启用，利用Gemini的前沿能力进行高级推理和多模态处理。负责谷歌搜索的副总裁伊丽莎白·雷德解释说，AI模式将使用查询扩展技术，将用户提出的问题分解成进一步的子话题。

“这使搜索能比传统谷歌搜索更深入地探索网络，”雷德说。

(以上内容均由Ai生成)