快速阅读: 微软研究院开源VibeVoice-1.5B模型,实现90分钟超长语音合成,支持四位发言人,3200倍音频压缩,双tokenizer架构解决音色与语义不匹配问题。 近日,微软研究院正式开源了最新音频模型——VibeVoice-1. […]