阿里推Qwen3-TTS：49音色10语9方言，WER碾压商用模型

发布时间：2025年12月8日来源：szf

快速阅读: 12月8日消息，阿里巴巴推出通义千问Qwen3-TTS语音合成模型，支持49种音色、10种语言及9种方言，免费开放每月百万字符额度，并在上海120所中小学试点教育应用。

今日，阿里巴巴正式推出通义千问Qwen3系列新成员——Qwen3-TTS语音合成模型，主打“零样本、多角色、跨语言”能力。该模型已在阿里云控制台上线，开发者可免费调用每月100万字符额度。

Qwen3-TTS内置49种高品质官方音色，覆盖旁白、客服、直播、教育等应用场景，支持10种语言及9种中国方言，包括粤语、四川话和东北话等。用户可在同一文本中秒级切换不同音色，无需重新训练。此外，模型采用自回归声学架构与韵律预测模块，能根据标点和情感标签自动调节语调与停顿，在48kHz采样率下平均主观评价（MOS）得分达4.53，显著高于行业平均水平。

在国际权威测试集MLS与Common Voice上，该模型英文词错误率（WER）降至2.8%，中文为1.9%，较主流商用引擎如Azure TTS分别降低18%和24%，刷新开源领域最优成绩。目前，阿里云已同步推出“一键朗读”插件，教师上传PPT即可生成带方言的讲解音频，相关功能正在上海120所中小学试点应用。

该服务提供免费与付费两档：免费层包含全部49种音色；付费层定价0.8元/万字符，支持SSML标记与实时流式合成。据悉，阿里计划于2025年第一季度开放“10秒音色克隆”接口，并推出80kHz超采样版本，进一步拓展播客、有声书及虚拟偶像等高保真语音场景。

(以上内容均由Ai生成)