阿里开源“百聆”语音模型：三秒录音切换多语言与情感

发布时间：2025年12月15日来源：szf

快速阅读: 记者从阿里巴巴获悉，其“百聆”系列语音模型完成重大升级并开源，仅需三秒录音即可实现九种语言与十八种方言切换，并支持多情感模拟，显著提升音色克隆、中英混说识别及噪声环境下的准确率，助力语音助手、直播配音等场景高效应用。

阿里巴巴通义大模型近日宣布，“百聆”系列语音模型完成重大升级并正式开源。此次更新包含两款核心模型，仅需三秒录音即可实现九种语言与十八种方言的无缝切换，涵盖普通话、粤语、英语、日语等，并支持开心、愤怒等多种情感模拟。

其中，Fun-CosyVoice3模型在多项性能上取得显著提升。其首包延迟降低50%，中英混说识别准确率明显提高。同时，该模型的音色克隆能力进一步增强——用户只需提供一段三秒以上录音，即可复刻目标音色并合成新语音，为实时语音助手、直播配音及无障碍阅读等应用场景提供更高效的技术支持。

另一款Fun-ASR模型在复杂噪声环境下的识别准确率达到93%。它不仅支持歌词与说唱内容的精准识别，还具备多语言自由混说能力，覆盖多种中文方言与口音。为优化交互体验，该模型将流式识别的首字延迟压缩至160毫秒，显著提升语音交互流畅度。

此外，两款模型均支持本地部署与二次开发，便于开发者根据具体需求进行定制化调整。相关开源代码已公开发布，用户可前往指定平台获取并应用，推动语音技术在更多领域的落地与创新。

(以上内容均由Ai生成)

引用自：AIbase人工智能资讯平台

你可能还想读