Cartesia推出Sonic-3语音AI引擎，对话延迟低于100毫秒

发布时间：2025年10月29日来源：szf

快速阅读: Cartesia发布Sonic-3语音AI引擎，采用SSM架构，实现低至100毫秒延迟，支持42种语言，具备语音克隆及情感模拟功能，获1亿美元融资。

Cartesia公司发布了最新的语音AI引擎Sonic-3，声称这是目前市场上速度最快、最自然的实时语音对话模型。Sonic-3旨在提供极致自然且快速的语音交互体验，使AI能够几乎无延迟地进行对话，并模仿人类的情感、语气乃至笑声和情绪变化，从而大幅提高交流的真实性和表现力。

Sonic-3的卓越性能归功于其采用的全新“状态空间模型”（SSM）架构，而非传统的Transformer模型。Cartesia表示，SSM架构能够更有效地模拟人类思维，记住对话的主题和情绪，无需每次都重新分析上下文，因此在语音自然度和低延迟性能方面达到了前所未有的水平。该模型的延迟低于100毫秒，在实时语音交互领域处于领先位置。

在功能和覆盖范围方面，Sonic-3展示了强大的全球化潜力。它支持42种语言，覆盖全球95%的人口，包括9种印度语言，可以为不同市场的需求提供母语级别的语音模型。Sonic-3还具有智能上下文理解能力，能够自动识别并准确朗读诸如NASA、FBI等缩写和首字母缩写词，显著提升了对话的流畅性。此外，该引擎支持语音克隆功能，用户可以在短短10秒内生成个性化的语音，企业版还提供专业的语音调优和品牌音色定制服务。

Sonic-3的应用前景广泛，可用于客户支持、虚拟伴侣、医疗保健和物流服务等领域，通过情绪化的语音显著提升客户服务体验。为了支持Sonic-3的进一步研发与推广，Cartesia同时宣布完成了1亿美元的融资，投资方包括Kleiner Perkins、Index Ventures、Lightspeed和NVIDIA等知名公司。Cartesia相信，随着Sonic-3的推出，人机交互领域将迎来重大突破，为用户带来更加丰富与自然的交流体验。用户可访问Cartesia官方网站在线体验Sonic-3。网址：https://cartesia.ai/sonic

(以上内容均由Ai生成)