阿里发布Qwen3-TTS,49种音色免费开放
快速阅读: 记者从相关部门获悉,阿里通义千问发布Qwen3-TTS语音合成大模型,支持49种音色、20种语言方言,合成准确率提升12%,MOS评分达4.6,并免费开放API供全球开发者商用集成。
阿里通义千问近日发布新一代语音合成大模型Qwen3-TTS,并通过Qwen API向全球开发者免费开放。该模型提供49种多角色音色,覆盖不同性别、年龄、地域及角色设定,支持一键切换,适用于播客、有声书、游戏NPC及智能客服等场景,无需额外训练即可实现秒级换声。
此外,Qwen3-TTS支持10种主流语言及10种中国方言,包括普通话、粤语、四川话等,保留地道口音与语调。在MiniMax TTS多语言测试集上,其平均词错误率(WER)优于MiniMax与ElevenLabs,合成准确率提升约12%。韵律方面,模型采用音节级重音与语调预测技术,MOS评分达4.6,接近真人水平的4.8;同时可根据文本情绪自适应调节语速与停顿,提升自然度。
该模型还具备实时流式合成能力,首包延迟低于300毫秒,适用于直播配音与对话交互场景。目前API免费开放,无调用次数限制,默认授权支持商业用途,开发者仅需少量代码即可快速集成。
据悉,阿里计划于2025年第一季度推出“方言语音克隆”功能,仅需5秒音频即可复刻地方口音;第二季度将发布边缘部署版本,支持离线局域网运行,目标应用于智慧景区、车载语音等场景。
(以上内容均由Ai生成)