Google推Gemini TTS 2.5支持情绪语音与多角色切换
快速阅读: 谷歌近日表示,其新发布的Gemini 2.5 Flash与Pro文本转语音模型全面替代旧版,支持24种语言、情绪化表达及上下文自适应语速,显著提升有声书与游戏NPC沉浸感,预计2025年第一季度正式上线。
谷歌近日发布Gemini 2.5 Flash与Pro文本转语音预览模型,全面替代今年5月推出的旧版系统。新模型聚焦“情绪级”语音表达、上下文自适应节奏控制及24种语言的多角色对话能力。开发者目前已可通过Google AI Studio与Playground平台免费测试,预计将于2025年第一季度正式投入生产环境。
该模型支持根据“欢快乐观”“阴郁严肃”等提示词即时调整音色与语速,显著提升有声书、游戏NPC及本地化课件等场景的沉浸感,有效避免传统文本转语音技术带来的机械感。其中,Synergy Intro应用已提供多风格实时切换演示,输出效果接近专业配音水平。
此外,新系统具备上下文感知能力,可依据内容复杂度动态调节语速——复杂解释自动放缓,兴奋段落则加速推进,实现如“慢条斯理悬疑→急促惊险”的自然过渡。例如,在朗读神秘小说时,系统能随剧情逐步加快节奏,并在关键转折点通过音效强化张力。
在多语言与多角色方面,该模型覆盖英语、法语、德语、日语、印地语等24种语言,确保跨语种对话中角色身份稳定、音调风格一致。Voices from History应用已展示英-多语种混用历史对话的实现效果,角色个性保持连贯。
初步行业反馈显示,音频平台集成后多说话者模式广受用户欢迎,订阅率提升20%,首月用户流失率与运营成本均下降20%。内容工作室亦肯定其在英/印地语漫画配音中角色一致性表现。谷歌表示,2025年Q1将同步推出低延迟Flash版(首包延迟低于300毫秒)与高质量Pro版(48kHz采样),并支持边缘节点部署,重点拓展播客、互动游戏及虚拟主播等实时应用场景。
(以上内容均由Ai生成)