面壁智能与清华联合发布VoxCPM，革新语音合成体验

发布时间：2025年9月19日来源：szf

快速阅读: 面壁智能与清华大学合作发布VoxCPM，0.5B参数规模，实现高质量语音合成。该模型在自然度、音色相似度等方面领先，支持零样本声音克隆，已开源并提供线上体验。

在语音合成技术迅速发展的背景下，面壁智能与清华大学深圳国际研究生院人机语音交互实验室（THUHCSI）近日共同发布了一款新的语音生成模型——VoxCPM。该模型以0.5B参数规模，旨在为用户提供高质量、自然的语音合成体验。

VoxCPM的发布标志着高拟真语音生成领域的一个重要里程碑。该模型在自然度、音色相似度及韵律表现等方面均达到了行业领先水平。借助零样本声音克隆技术，VoxCPM能够利用少量数据生成用户的独特声音，实现个性化的语音合成，为语音生成的应用场景开辟了更多可能性，特别是在个性化语音助手和游戏角色配音等领域。

据了解，VoxCPM已在GitHub、Hugging Face等平台开源，并向开发者提供了线上体验平台，方便用户探索和使用其强大功能。在权威的语音合成评测榜单Seed-TTS-EVAL中，VoxCPM表现优异，尤其在词错误率和音色相似度方面取得了极低的错误率，展现了其卓越的推理效率。在NVIDIA RTX 4090显卡上，VoxCPM的实时因子（RTF）约为0.17，满足了高质量实时交互的需求。

VoxCPM不仅在技术性能上有所突破，在音质和情感表达方面也表现出色。该模型能够根据文本内容智能选择合适的声音、腔调和韵律，模拟出接近真人的听感。无论是在气象播报、英雄演讲，还是方言主播方面，VoxCPM都能精确再现，提供沉浸式的听觉体验。

此外，VoxCPM的技术架构基于最新的扩散自回归语音生成模型，结合了层次化语言建模和局部扩散生成的连续表征，显著提升了生成语音的表现力与自然度。该模型的核心架构包括多个协同工作的模块，实现了高效的“语义-声学”生成过程。

(以上内容均由Ai生成)