Cartesia推出Sonic-3语音AI引擎,对话延迟低于100毫秒
快速阅读: Cartesia发布Sonic-3语音AI引擎,采用SSM架构,实现低至100毫秒延迟,支持42种语言,具备语音克隆及情感模拟功能,获1亿美元融资。
Cartesia公司发布了最新的语音AI引擎Sonic-3,声称这是目前市场上速度最快、最自然的实时语音对话模型。Sonic-3旨在提供极致自然且快速的语音交互体验,使AI能够几乎无延迟地进行对话,并模仿人类的情感、语气乃至笑声和情绪变化,从而大幅提高交流的真实性和表现力。
Sonic-3的卓越性能归功于其采用的全新“状态空间模型”(SSM)架构,而非传统的Transformer模型。Cartesia表示,SSM架构能够更有效地模拟人类思维,记住对话的主题和情绪,无需每次都重新分析上下文,因此在语音自然度和低延迟性能方面达到了前所未有的水平。该模型的延迟低于100毫秒,在实时语音交互领域处于领先位置。
在功能和覆盖范围方面,Sonic-3展示了强大的全球化潜力。它支持42种语言,覆盖全球95%的人口,包括9种印度语言,可以为不同市场的需求提供母语级别的语音模型。Sonic-3还具有智能上下文理解能力,能够自动识别并准确朗读诸如NASA、FBI等缩写和首字母缩写词,显著提升了对话的流畅性。此外,该引擎支持语音克隆功能,用户可以在短短10秒内生成个性化的语音,企业版还提供专业的语音调优和品牌音色定制服务。
Sonic-3的应用前景广泛,可用于客户支持、虚拟伴侣、医疗保健和物流服务等领域,通过情绪化的语音显著提升客户服务体验。为了支持Sonic-3的进一步研发与推广,Cartesia同时宣布完成了1亿美元的融资,投资方包括Kleiner Perkins、Index Ventures、Lightspeed和NVIDIA等知名公司。Cartesia相信,随着Sonic-3的推出,人机交互领域将迎来重大突破,为用户带来更加丰富与自然的交流体验。用户可访问Cartesia官方网站在线体验Sonic-3。网址:https://cartesia.ai/sonic
(以上内容均由Ai生成)