微软开源实时语音模型,300ms响应,支持90分钟流畅音频
快速阅读: 微软开源VibeVoice-Realtime-0.5B,全球延迟最低的TTS模型之一,支持4角色对话,情感感知自动调整情绪,中英文混读流畅,设计轻量,适配普通笔记本,已在HuggingFace和GitHub开源。
微软悄然开源了一款名为VibeVoice-Realtime-0.5B的“黑马级”实时语音模型。这可能是目前全球延迟最低、表现最接近真人的开源文本转语音(TTS)模型之一。模型的特点是几乎零延迟,从输入文本到发出第一声平均只需300毫秒,远低于传统TTS的1-3秒起音时间。实际体验如同真人对话,打字的同时,对方就开始回应,完全没有“等我生成完再播”的卡顿感。
此外,该模型能够一次性生成长达90分钟的流畅语音,全程不降速、不跑调、不重复,语调自然,如同专业播音员。HuggingFace上的实测显示,网友用整本《三体》第一章进行测试,模型完整朗读下来毫无破音。
VibeVoice-Realtime-0.5B还支持最多4个角色同时对话,每个角色都能保持独立且稳定的声线、语速和语气。例如,在模拟播客访谈场景中,主持人沉稳、嘉宾A激动、嘉宾B幽默、嘉宾C略带歉意,四人轮流发言时互不串音,情绪切换自然流畅,堪称“AI配音组团天花板”。
模型内置的情感感知模块能够根据文本语义自动添加对应情绪。看到“对不起”时,会自然带有歉意语气;遇到“太棒了!”时,会瞬间上扬兴奋;甚至一句“我很生气”也会压低声线、加快语速,完全不需要手动标注情绪标签,开箱即用。
VibeVoice支持中英文混读,英文表现已接近商用级别,中文发音准确、自然度极高,但在部分多音字和轻声词的处理上仍有优化空间。官方表示,后续将推出专门的中文精调版本。
该模型设计轻量,仅有0.5B参数,推理时显存占用不到2GB,普通笔记本即可实现满速实时运行。开发者已将其快速集成到本地AI助手、阅读App和实时同传工具中,未来有望成为“AI本地语音标配”。
目前,VibeVoice-Realtime-0.5B已在HuggingFace和GitHub完全开源(MIT协议),支持商用。社区内已出现大量Demo,有人用它实现了“边打字边读”的微信语音输入神器,还有人将其与大模型结合,实现全链路实时语音对话。
AIbase报道点评:当开源圈还在竞相开发10B+参数的巨型TTS时,微软用一个0.5B的小模型将“实时、自然、长文本、多角色”等功能做到接近商用水平,堪称“降维打击”。接下来,就看国内大厂如何应对了。
项目地址:https://microsoft.github.io/VibeVoice/
(以上内容均由Ai生成)