微软推实时TTS模型,300毫秒低延迟输出
快速阅读: 据微软发布消息称,其推出VibeVoice-Realtime-0.5B轻量级实时TTS模型,支持流式输入与长语音输出,首音延迟约300毫秒,适用于智能代理及客服等场景。
微软近日发布VibeVoice-Realtime-0.5B模型,该轻量级系统专为实时文本转语音(TTS)任务设计,支持流式文本输入与长篇语音输出,适用于智能代理、实时数据播报等场景。据技术文档显示,该模型可在约300毫秒内输出可听语音,显著降低首音延迟,尤其在语言模型仍在生成回答时保障语音交互的流畅性。
该系统采用交错窗口架构,将输入文本分块处理,在编码新文本的同时继续利用先前上下文生成声学特征,实现文本编码与声学解码的并行操作。与面向长音频合成的VibeVoice主版本不同,此实时模型仅使用声学标记器,运行速率达7.5赫兹,并基于LatentLM的σVAE变体构建对称编解码结构,可对24kHz音频实现3200倍下采样。
此外,VibeVoice-Realtime的训练分为两阶段:先预训练声学标记器,再冻结该模块以训练大语言模型及扩散头。在LibriSpeech测试集中,其零样本字错误率(WER)达2.00%,说话者相似度为0.695,性能与当前主流TTS系统相当。推荐部署方式是将其与对话大语言模型协同运行,通过流式传输标记实现实时语音合成。该方案配备8k上下文窗口及约10分钟音频生成能力,适用于客服对话、监控仪表盘等典型应用场景。
(以上内容均由Ai生成)