超长语音合成 – 数智风暴

微软发布VibeVoice-1.5B模型，实现90分钟超长语音合成

快速阅读: 微软研究院开源VibeVoice-1.5B模型，实现90分钟超长语音合成，支持四位发言人，3200倍音频压缩，双tokenizer架构解决音色与语义不匹配问题。近日，微软研究院正式开源了最新音频模型——VibeVoice-1. […]

发布时间：2025-08-26 16:37 来源：szf