微软开源VibeVoice TTS模型，支持90分钟超长语音及4人对话，中文表现亮眼

发布时间：2025年8月26日来源：szf

快速阅读: 微软推出开源TTS模型VibeVoice，支持90分钟超长语音生成、最多4人对话、中文语音合成及背景音乐，适用于播客、教育等领域，降低高质量TTS技术门槛。

近日，微软推出备受瞩目的开源文本转语音（TTS）模型——VibeVoice，引发AI语音技术领域的高度关注。这款模型凭借强大功能和卓越性能，在长篇语音生成、多人对话及中文语音合成方面树立了新标杆。以下将详细介绍VibeVoice的亮点与潜力。

VibeVoice支持90分钟超长语音生成，突破时长限制。该模型可一次性生成长达90分钟的连续语音，特别适合播客、有声书和教育内容制作等需要长时间音频输出的场景。相比传统TTS模型的时长限制，VibeVoice的超长生成能力为内容创作者提供了更大的灵活性和创作空间。

VibeVoice实现多人对话新高度，最多支持4人语音。与以往TTS模型仅支持单人或双人对话不同，VibeVoice能够流畅生成最多4人的对谈语音。这一功能在模拟多人播客、会议录音或虚拟角色互动等场景中表现出色。通过优化语音一致性和自然轮转，VibeVoice生成的多人对话语音自然流畅，几乎可媲美真人录音效果。

VibeVoice在中文语音效果方面表现优异，助力本土化应用。针对中文市场，VibeVoice展现令人印象深刻的表现。它支持中文语音合成，并在语调、发音准确性和自然度上达到高水平。这使得VibeVoice在中文播客、教育培训、智能客服等领域具有广泛的应用潜力，为开发者提供高质量的本土化语音解决方案。

VibeVoice支持背景音乐，打造沉浸式播客体验。该模型的一大亮点是支持生成带背景音乐的播客音频。这一功能让内容创作者能够轻松为语音添加背景音效，打造更具沉浸感和专业性的音频内容。无论是轻松的背景旋律还是紧张的氛围音效，VibeVoice都能无缝融合，为听众带来更丰富的听觉体验。

VibeVoice作为一款开源模型，已于2025年8月26日在GitHub正式发布，开发者可自由获取并进行二次开发。微软此次开源的举措不仅降低了高质量TTS技术的使用门槛，还为全球AI开发者社区注入了新的活力。无论是个人创作者还是企业用户，都可以通过VibeVoice快速构建创新的语音应用。

地址：https://huggingface.co/microsoft/VibeVoice-1.5B

(以上内容均由Ai生成)