谷歌升级Search Live语音功能
快速阅读: 截至发稿时,谷歌在美国上线Search Live功能更新,集成Gemini 2.5 Flash原生音频模型,提升语音搜索自然度与实时翻译能力,并将扩展至Gemini应用和Google AI Studio等平台,增强多轮对话稳定性与跨语言交互体验。
谷歌近日推出Search Live功能更新,集成Gemini 2.5 Flash原生音频模型,显著提升语音搜索的自然度与实用性。此次升级使语音响应更贴近真人对话,并在用户提出涉及现实环境的问题时,提供即时语音翻译服务。
该功能本周起在美国上线,语音回答不仅更加流畅自然,还可根据需要放慢语速,便于理解教学或说明类内容。此外,这一音频能力将逐步扩展至谷歌生态的多个平台,包括Gemini应用中的Gemini Live、Google AI Studio及Vertex AI,实现跨产品的一致体验。
新模型可实时处理语音输入并生成连贯语音输出,降低人机对话门槛,提升交互流畅性。尽管谷歌未明确称其为端到端语音到语音模型,但此次更新延续了其10月发布的“语音到检索”(Speech-to-Retrieval)技术路线——该技术基于神经网络,在大规模配对音频数据上训练而成。
对于开发者和企业用户,Gemini 2.5 Flash原生音频模型在多轮对话中表现更稳定,能更可靠地调用外部功能、执行复杂指令并保持上下文连贯,从而增强语音代理在实际工作流程中的可用性。
同时,系统新增实时双向语音翻译功能,可在不同语言使用者之间自动转换对话内容,并保留原始语调、节奏与重音特征,使翻译结果更具对话感。该功能支持广泛语种、自动识别语种、多语言混合输入及日常环境降噪,减少操作步骤,实现近乎无感的同传体验。
此次更新标志着谷歌正持续推进语音搜索向更自然、更智能的方向演进,逐步实现其早期受《星际迷航》启发的人机语音交互愿景。
(以上内容均由Ai生成)