Google推Gemini TTS 2.5支持情绪语音与多角色切换

发布时间：2025年12月11日来源：szf

快速阅读: 谷歌近日表示，其新发布的Gemini 2.5 Flash与Pro文本转语音模型全面替代旧版，支持24种语言、情绪化表达及上下文自适应语速，显著提升有声书与游戏NPC沉浸感，预计2025年第一季度正式上线。

谷歌近日发布Gemini 2.5 Flash与Pro文本转语音预览模型，全面替代今年5月推出的旧版系统。新模型聚焦“情绪级”语音表达、上下文自适应节奏控制及24种语言的多角色对话能力。开发者目前已可通过Google AI Studio与Playground平台免费测试，预计将于2025年第一季度正式投入生产环境。

该模型支持根据“欢快乐观”“阴郁严肃”等提示词即时调整音色与语速，显著提升有声书、游戏NPC及本地化课件等场景的沉浸感，有效避免传统文本转语音技术带来的机械感。其中，Synergy Intro应用已提供多风格实时切换演示，输出效果接近专业配音水平。

此外，新系统具备上下文感知能力，可依据内容复杂度动态调节语速——复杂解释自动放缓，兴奋段落则加速推进，实现如“慢条斯理悬疑→急促惊险”的自然过渡。例如，在朗读神秘小说时，系统能随剧情逐步加快节奏，并在关键转折点通过音效强化张力。

在多语言与多角色方面，该模型覆盖英语、法语、德语、日语、印地语等24种语言，确保跨语种对话中角色身份稳定、音调风格一致。Voices from History应用已展示英-多语种混用历史对话的实现效果，角色个性保持连贯。

初步行业反馈显示，音频平台集成后多说话者模式广受用户欢迎，订阅率提升20%，首月用户流失率与运营成本均下降20%。内容工作室亦肯定其在英/印地语漫画配音中角色一致性表现。谷歌表示，2025年Q1将同步推出低延迟Flash版（首包延迟低于300毫秒）与高质量Pro版（48kHz采样），并支持边缘节点部署，重点拓展播客、互动游戏及虚拟主播等实时应用场景。

(以上内容均由Ai生成)