微软开源实时语音模型，300ms响应，支持90分钟流畅音频

发布时间：2025年12月5日来源：szf

快速阅读: 微软开源VibeVoice-Realtime-0.5B，全球延迟最低的TTS模型之一，支持4角色对话，情感感知自动调整情绪，中英文混读流畅，设计轻量，适配普通笔记本，已在HuggingFace和GitHub开源。

微软悄然开源了一款名为VibeVoice-Realtime-0.5B的“黑马级”实时语音模型。这可能是目前全球延迟最低、表现最接近真人的开源文本转语音（TTS）模型之一。模型的特点是几乎零延迟，从输入文本到发出第一声平均只需300毫秒，远低于传统TTS的1-3秒起音时间。实际体验如同真人对话，打字的同时，对方就开始回应，完全没有“等我生成完再播”的卡顿感。

此外，该模型能够一次性生成长达90分钟的流畅语音，全程不降速、不跑调、不重复，语调自然，如同专业播音员。HuggingFace上的实测显示，网友用整本《三体》第一章进行测试，模型完整朗读下来毫无破音。

VibeVoice-Realtime-0.5B还支持最多4个角色同时对话，每个角色都能保持独立且稳定的声线、语速和语气。例如，在模拟播客访谈场景中，主持人沉稳、嘉宾A激动、嘉宾B幽默、嘉宾C略带歉意，四人轮流发言时互不串音，情绪切换自然流畅，堪称“AI配音组团天花板”。

模型内置的情感感知模块能够根据文本语义自动添加对应情绪。看到“对不起”时，会自然带有歉意语气；遇到“太棒了！”时，会瞬间上扬兴奋；甚至一句“我很生气”也会压低声线、加快语速，完全不需要手动标注情绪标签，开箱即用。

VibeVoice支持中英文混读，英文表现已接近商用级别，中文发音准确、自然度极高，但在部分多音字和轻声词的处理上仍有优化空间。官方表示，后续将推出专门的中文精调版本。

该模型设计轻量，仅有0.5B参数，推理时显存占用不到2GB，普通笔记本即可实现满速实时运行。开发者已将其快速集成到本地AI助手、阅读App和实时同传工具中，未来有望成为“AI本地语音标配”。

目前，VibeVoice-Realtime-0.5B已在HuggingFace和GitHub完全开源（MIT协议），支持商用。社区内已出现大量Demo，有人用它实现了“边打字边读”的微信语音输入神器，还有人将其与大模型结合，实现全链路实时语音对话。

AIbase报道点评：当开源圈还在竞相开发10B+参数的巨型TTS时，微软用一个0.5B的小模型将“实时、自然、长文本、多角色”等功能做到接近商用水平，堪称“降维打击”。接下来，就看国内大厂如何应对了。

项目地址：https://microsoft.github.io/VibeVoice/

(以上内容均由Ai生成)

微软开源实时语音模型，300ms响应，支持90分钟流畅音频

你可能还想读

英国Lodestar获资推进AI卫星感知系统

软银收购DigitalBridge加码AI算力布局

贝莱德：AI投资将驱动美国经济韧性增长

硅谷预言：AI将重塑工作与收入

AI重塑广告业：从执行到智能协同

AI推动数据分析普及，渠道伙伴机遇扩大

欧盟报告：AI训练应借鉴Napster版权教训

特朗普推AI新政，各州监管加速推进