微软推实时TTS模型，300毫秒低延迟输出

发布时间：2025年12月8日来源：szf

快速阅读: 据微软发布消息称，其推出VibeVoice-Realtime-0.5B轻量级实时TTS模型，支持流式输入与长语音输出，首音延迟约300毫秒，适用于智能代理及客服等场景。

微软近日发布VibeVoice-Realtime-0.5B模型，该轻量级系统专为实时文本转语音（TTS）任务设计，支持流式文本输入与长篇语音输出，适用于智能代理、实时数据播报等场景。据技术文档显示，该模型可在约300毫秒内输出可听语音，显著降低首音延迟，尤其在语言模型仍在生成回答时保障语音交互的流畅性。

该系统采用交错窗口架构，将输入文本分块处理，在编码新文本的同时继续利用先前上下文生成声学特征，实现文本编码与声学解码的并行操作。与面向长音频合成的VibeVoice主版本不同，此实时模型仅使用声学标记器，运行速率达7.5赫兹，并基于LatentLM的σVAE变体构建对称编解码结构，可对24kHz音频实现3200倍下采样。

此外，VibeVoice-Realtime的训练分为两阶段：先预训练声学标记器，再冻结该模块以训练大语言模型及扩散头。在LibriSpeech测试集中，其零样本字错误率（WER）达2.00%，说话者相似度为0.695，性能与当前主流TTS系统相当。推荐部署方式是将其与对话大语言模型协同运行，通过流式传输标记实现实时语音合成。该方案配备8k上下文窗口及约10分钟音频生成能力，适用于客服对话、监控仪表盘等典型应用场景。

(以上内容均由Ai生成)