情感语音 AI 初创公司 Hume 推出新的 Evi 3 模型,可快速创建自定义语音
快速阅读: 《VentureBeat 公司》消息,纽约AI初创公司慧美科技推出最新共情语音接口EVI 3,覆盖客服、心理健康、叙事和虚拟陪伴等领域。该模型提供更自然、个性化对话体验,支持多种语言,但暂无语音克隆功能。慧美科技计划未来几周内通过API开放开发者访问,并强调灵活的声音定制和伦理考量。
加入我们的每日和每周通讯,获取行业领先的人工智能报道的最新动态和独家内容。
了解更多纽约的AI初创公司**慧美科技(Hume)**推出了其最新的共情语音接口(EVI)对话式人工智能模型——**EVI 3**(发音为“伊薇三”,类似宝可梦角色),目标涵盖从支持客户支持系统和心理健康辅导到沉浸式叙事和虚拟陪伴的一切领域。据慧美科技介绍,EVI 3允许用户通过与模型交谈来创建自己的声音(即语音到语音/语音到语音),并旨在设定自然性、表现力和“共情”的新标准,即用户如何感知模型对其情绪的理解以及其调整或调整自身回应能力的能力,包括语气和用词选择。
纽约的AI初创公司**慧美科技(Hume)**推出了其最新的共情语音接口(EVI)对话式人工智能模型——**EVI 3**(发音为“伊薇三”,类似宝可梦角色),目标涵盖从支持客户支持系统和健康辅导到沉浸式叙事和虚拟陪伴的一切领域。专为企业、开发者和创作者设计的EVI 3在其前几代语音模型基础上提供了更复杂的定制化、更快的响应速度和增强的情感理解。
纽约的AI初创公司**慧美科技(Hume)**推出了其最新的共情语音接口(EVI)对话式人工智能模型——**EVI 3**(发音为“伊薇三”,类似宝可梦角色),目标涵盖从支持客户支持系统和心理健康辅导到沉浸式叙事和虚拟陪伴的一切领域。
个人用户今天可通过慧美科技官网的实时演示和iOS应用与其互动,但据该公司博客文章所述,通过慧美科技专有应用程序编程接口(API)的开发者访问将在“未来几周内”推出。届时,开发者将能够将其嵌入到自己的客户服务系统、创意项目或虚拟助手中——需要付费(详见下文)。我使用演示版的经历让我能够在几秒钟内基于我对它的描述创建一个全新的自定义合成声音——一种温暖而自信、男性化的音调。与它交谈的感觉比其他AI模型更自然且轻松,当然也比苹果的Siri和亚马逊的Alexa等传统技术领导者的预设声音更自然。
开发人员和企业应了解的关于EVI 3的信息
慧美的EVI 3适用于从客户服务到应用内交互再到有声书和游戏内容创作的各种用途。它允许用户指定精确的性格特征、声音特质、情感基调和对话主题。这意味着它可以生成从温暖、共情的指南到古怪、淘气的叙述者的一切内容——甚至可以满足像“一只吱吱作响的老鼠用法语口音急切地低声谈论它偷窃厨房奶酪的计划”这样的具体要求。
EVI 3的核心优势在于其直接将情感智能整合到基于语音的体验中的能力。与传统聊天机器人或语音助手不同,它们严重依赖脚本或文本交互,EVI 3适应人们自然说话的方式——捕捉音高、节奏、停顿和语音爆发,以创造更具吸引力、更人性化的对话。然而,慧美科技的模型目前缺乏一个重要功能——这是由竞争对手开源和专有产品提供的,例如ElevenLabs——即语音克隆,即快速复制用户或其他人的声音,比如公司的首席执行官。不过,慧美科技已表示将在其Octave文本转语音模型中添加这一功能,因为慧美科技官网提到该功能“即将推出”,并且本人之前的报道发现它将允许用户仅从五秒钟的音频中复制声音。慧美科技表示,在广泛提供此功能之前,它正在优先考虑保障措施和道德考量。目前,EVI本身不提供此克隆功能,慧美科技强调灵活的声音定制。
内部测试显示用户更倾向于EVI 3而非OpenAI的GPT-4o语音模型。根据慧美科技对1,720名用户的测试结果,EVI 3在每个类别上都优于OpenAI的GPT-4o:自然性、表现力、共情、中断处理、响应速度、音频质量、按请求进行语音情感/风格调节以及按请求进行情感理解(“按请求”功能在下面的“指令遵循”部分中涵盖)。内部测试显示用户更倾向于EVI 3而非OpenAI的GPT-4o语音模型。它还通常优于Google的Gemini模型系列和前Oculus联合创始人Brendan Iribe的新开源AI模型公司Sesame。它还具备更低的延迟(~300毫秒)、强大的多语言支持(英语和西班牙语,并且更多语言即将推出),以及几乎无限的自定义声音。
正如慧美科技官网所述:
**核心功能包括:**
– 生成韵律和富有表现力的文本转语音,并进行调制。
– 可中断性,实现动态对话流程。
– 会话中声音定制,让用户可以实时调整说话风格。
– API就绪架构(即将推出),以便开发者可以直接将EVI 3集成到应用程序和服务中。
**定价和开发者访问**
慧美科技为其EVI、Octave TTS和Expression Measurement API提供了灵活的基于使用的定价方案。虽然尚未公布EVI 3的具体API定价(标记为待定),但模式表明它将是基于使用的,大型部署可获得企业折扣。作为参考,EVI 2的价格为每分钟$0.072——比其前身EVI 1(每分钟$0.102)低30%。
对于从事文本转语音项目的创作者和开发者,慧美的Octave TTS计划范围从免费层(10,000个字符的语音,约10分钟的音频)到企业级计划。以下是详细信息:
– **免费**:10,000个字符,无限自定义声音,每月$0
– **入门级**:30,000个字符(约30分钟),20个项目,每月$3
– **创作者**:100,000个字符(约100分钟),1,000个项目,超出部分按使用量收费(每1,000个字符$0.20),每月$10
– **专业级**:500,000个字符(约500分钟),3,000个项目,超出部分按每1,000个字符$0.15收费,每月$50
– **扩展级**:2,000,000个字符(约2,000分钟),10,000个项目,超出部分按每1,000个字符$0.13收费,每月$150
– **商业级**:10,000,000个字符(约10,000分钟),20,000个项目,超出部分按每1,000个字符$0.10收费,每月$900
– **企业级**:定制价格和无限使用
针对从事实时语音交互或情感分析的开发者,慧美科技还提供了一种按需付费计划,包含$20的免费积分且无需预先承诺。高容量的企业客户可以选择专用的企业计划,其中包括数据集许可、本地解决方案、定制集成和高级支持。
慧美的情感AI语音模型历史
由谷歌DeepMind前研究员**艾伦·考恩(Alan Cowen)**创立于2021年的慧美科技致力于填补人类情感细腻之处与AI交互间的鸿沟。该公司在其训练模型时使用了来自全球数十万参与者的广泛数据集——不仅捕捉语音和文本,还包括语音爆发和面部表情。“情感智能包括从行为中推断意图和偏好。这就是AI界面正在努力实现的核心。”考恩告诉VentureBeat。
慧美的使命是使AI界面更加响应、人性化,并最终更有用——无论是协助客户浏览应用还是讲述兼具戏剧性和幽默感的故事。
2024年初,该公司发布了EVI 2,相比EVI 1,其延迟缩短了40%,价格降低了30%,同时还增加了动态语音定制和对话风格提示等功能。2025年2月,Octave首次发布,这是一款面向内容创作者的文本转语音引擎,能够通过文本提示在句子级别调整情感。随着EVI 3已开放实际操作探索,全面API访问即将上线,慧美希望让开发者和创作者重新想象语音AI的可能性。
VB Daily的业务用例每日洞察
如果你想给老板留下深刻印象,VB Daily可以帮你做到。我们为你提供公司在生成式AI方面的内部消息,从监管变化到实际部署,这样你就可以分享见解以获得最大回报。立即订阅阅读我们的隐私政策。
感谢订阅。查看更多VB新闻通讯。
发生错误。
(以上内容均由Ai生成)