阿里发布Qwen3-TTS，49种音色免费开放

发布时间：2025年12月11日来源：szf

快速阅读: 记者从相关部门获悉，阿里通义千问发布Qwen3-TTS语音合成大模型，支持49种音色、20种语言方言，合成准确率提升12%，MOS评分达4.6，并免费开放API供全球开发者商用集成。

阿里通义千问近日发布新一代语音合成大模型Qwen3-TTS，并通过Qwen API向全球开发者免费开放。该模型提供49种多角色音色，覆盖不同性别、年龄、地域及角色设定，支持一键切换，适用于播客、有声书、游戏NPC及智能客服等场景，无需额外训练即可实现秒级换声。

此外，Qwen3-TTS支持10种主流语言及10种中国方言，包括普通话、粤语、四川话等，保留地道口音与语调。在MiniMax TTS多语言测试集上，其平均词错误率（WER）优于MiniMax与ElevenLabs，合成准确率提升约12%。韵律方面，模型采用音节级重音与语调预测技术，MOS评分达4.6，接近真人水平的4.8；同时可根据文本情绪自适应调节语速与停顿，提升自然度。

该模型还具备实时流式合成能力，首包延迟低于300毫秒，适用于直播配音与对话交互场景。目前API免费开放，无调用次数限制，默认授权支持商业用途，开发者仅需少量代码即可快速集成。

据悉，阿里计划于2025年第一季度推出“方言语音克隆”功能，仅需5秒音频即可复刻地方口音；第二季度将发布边缘部署版本，支持离线局域网运行，目标应用于智慧景区、车载语音等场景。

(以上内容均由Ai生成)