Google 将 Gemini 打造成一个主动的、个人的通用 AI 助手
快速阅读: 据《印度斯坦时报》称,谷歌在Google I/O大会阐述通用AI助手愿景,强调Gemini更新及多领域AI应用。Gemini 2.5提升推理能力,新增功能如Canvas和Veo 3,月活用户超4亿。谷歌搜索整合AI模式,强化推理与多模态处理。竞争对手也在加速AI工具发展,推动行业进步。
山景城,加利福尼亚州:谷歌表示,强大的人工智能(AI)功能层将迅速在搜索、购物、Workspace、电影制作和视频通信平台中找到相关性和深度。这是其实现通用AI助手愿景的核心,这一愿景在年度Google I/O大会上详细阐述。与此同时,包括OpenAI、Anthropic和微软在内的竞争对手也在其AI工具方面取得重大进展。两项谷歌项目对Gemini的计划转型至关重要。
“更多的智能正在为所有人提供,无论身在何处。世界正在响应,比以往任何时候都更快地采用AI……所有这些进步意味着我们正处于AI平台转变的新阶段。几十年的研究现在正成为现实,惠及世界各地的人们、企业和社区。”谷歌及其母公司Alphabet首席执行官桑达尔·皮查伊表示。
皮查伊引用了Project Starline的例子,这是一种几年前的3D视频流技术,作为新Google Beam AI视频通信平台的基础技术,该平台将于今年晚些时候在惠普的计算设备上推出。其中一个宣称的亮点是——毫米级别的头部动作追踪。
AI代理是一个持续的主题,OpenAI、IBM、Anthropic和微软近期也对此提出了观点。
“我们对Gemini的最新更新是迈向实现通用AI助手愿景的重要步骤,这个助手在日常生活中对你有所帮助,智能且理解你所处的情境,并能在任何设备上为你规划和采取行动。这是我们对Gemini应用的最终目标,一个个性化的、主动的、强大的AI助手,”谷歌DeepMind首席执行官德米斯·哈萨比斯在一个HT参与的会议中指出。
对于谷歌来说,AI代理将是多管齐下的结果,其中包括Gemini 2.5模型增强推理能力,Gemini应用新增Canvas功能,用于创意编程或制作播客,以及新的视频生成模型Veo 3和图像生成器Imagen 4。这项工作基于Project Astra,赋予AI情境感知能力,如视频理解、屏幕共享和记忆。
谷歌表示,Gemini及其Android和iOS应用已超过4亿月活跃用户,全球有700万开发者使用这些模型来构建应用程序。这也标志着Project Mariner的完成,正如哈萨比斯解释的那样,“探索人类与代理交互的未来,从浏览器开始”。现在它包括一个系统,可以同时完成多达十个不同的任务。哈萨比斯说,这些任务可以包括查找信息、预订、购买东西和研究主题等并行进行。
此外,Gemini Live现已向所有用户免费开放,适用于安卓设备以及苹果iPhone。哈萨比斯解释说:“在未来几周内,Gemini Live将更深入地融入你的日常生活。与朋友外出计划?在Gemini Live中讨论细节,它会自动在你的谷歌日历中创建活动。”
谷歌估计,其竞争对手OpenAI的ChatGPT在3月份拥有约6亿月活跃用户。Meta的马克·扎克伯格在9月份表示,Meta AI当时月活跃用户接近5亿。
Gemini 2.5 Pro即将推出的改进功能,增加了新的推理能力,Deep Think模式专注于复杂的数学和编码任务,这与Gemini迈向‘代理AI’愿景相关。这种对复杂推理的关注与行业更广泛的趋势一致,即AI不仅能生成内容,还能执行复杂的解决问题的任务——OpenAI的o1、Anthropic的Claude和xAI的Grok 3就是例子。
“自引入LearnLM以来,我们的专家团队开发的模型家族中的2.5 Pro现在也成为学习领域的领先模型。在头对头比较中评估其教学法和有效性时,教育工作者和专家在各种场景下更喜欢Gemini 2.5 Pro,而不是其他模型,”谷歌DeepMind首席技术官科拉伊·卡武楚格鲁表示。
较轻量的Gemini 2.5 Flash增强了推理能力、多模态处理、代码支持及长上下文处理能力。目前,更新后的2.5 Flash作为‘实验性’版本在Google AI Studio供开发者使用,在Vertex AI供企业使用,以及Gemini应用供所有人使用——预计将在六月初正式发布。
在谷歌的通用AI助手发展中,公司搜索引擎平台起到了关键作用。搜索中的AI模式,率先在美国用户中启用,利用Gemini的前沿能力进行高级推理和多模态处理。负责谷歌搜索的副总裁伊丽莎白·雷德解释说,AI模式将使用查询扩展技术,将用户提出的问题分解成进一步的子话题。
“这使搜索能比传统谷歌搜索更深入地探索网络,”雷德说。
(以上内容均由Ai生成)