阿里推Qwen3-TTS:49音色10语9方言,WER碾压商用模型
快速阅读: 12月8日消息,阿里巴巴推出通义千问Qwen3-TTS语音合成模型,支持49种音色、10种语言及9种方言,免费开放每月百万字符额度,并在上海120所中小学试点教育应用。
今日,阿里巴巴正式推出通义千问Qwen3系列新成员——Qwen3-TTS语音合成模型,主打“零样本、多角色、跨语言”能力。该模型已在阿里云控制台上线,开发者可免费调用每月100万字符额度。
Qwen3-TTS内置49种高品质官方音色,覆盖旁白、客服、直播、教育等应用场景,支持10种语言及9种中国方言,包括粤语、四川话和东北话等。用户可在同一文本中秒级切换不同音色,无需重新训练。此外,模型采用自回归声学架构与韵律预测模块,能根据标点和情感标签自动调节语调与停顿,在48kHz采样率下平均主观评价(MOS)得分达4.53,显著高于行业平均水平。
在国际权威测试集MLS与Common Voice上,该模型英文词错误率(WER)降至2.8%,中文为1.9%,较主流商用引擎如Azure TTS分别降低18%和24%,刷新开源领域最优成绩。目前,阿里云已同步推出“一键朗读”插件,教师上传PPT即可生成带方言的讲解音频,相关功能正在上海120所中小学试点应用。
该服务提供免费与付费两档:免费层包含全部49种音色;付费层定价0.8元/万字符,支持SSML标记与实时流式合成。据悉,阿里计划于2025年第一季度开放“10秒音色克隆”接口,并推出80kHz超采样版本,进一步拓展播客、有声书及虚拟偶像等高保真语音场景。
(以上内容均由Ai生成)