阿里开源“百聆”语音模型:三秒录音切换多语言与情感
快速阅读: 记者从阿里巴巴获悉,其“百聆”系列语音模型完成重大升级并开源,仅需三秒录音即可实现九种语言与十八种方言切换,并支持多情感模拟,显著提升音色克隆、中英混说识别及噪声环境下的准确率,助力语音助手、直播配音等场景高效应用。
阿里巴巴通义大模型近日宣布,“百聆”系列语音模型完成重大升级并正式开源。此次更新包含两款核心模型,仅需三秒录音即可实现九种语言与十八种方言的无缝切换,涵盖普通话、粤语、英语、日语等,并支持开心、愤怒等多种情感模拟。
其中,Fun-CosyVoice3模型在多项性能上取得显著提升。其首包延迟降低50%,中英混说识别准确率明显提高。同时,该模型的音色克隆能力进一步增强——用户只需提供一段三秒以上录音,即可复刻目标音色并合成新语音,为实时语音助手、直播配音及无障碍阅读等应用场景提供更高效的技术支持。
另一款Fun-ASR模型在复杂噪声环境下的识别准确率达到93%。它不仅支持歌词与说唱内容的精准识别,还具备多语言自由混说能力,覆盖多种中文方言与口音。为优化交互体验,该模型将流式识别的首字延迟压缩至160毫秒,显著提升语音交互流畅度。
此外,两款模型均支持本地部署与二次开发,便于开发者根据具体需求进行定制化调整。相关开源代码已公开发布,用户可前往指定平台获取并应用,推动语音技术在更多领域的落地与创新。
(以上内容均由Ai生成)
引用自:AIbase人工智能资讯平台