OpenAI押注指令遵循与表达性语音,力争企业市场
快速阅读: OpenAI 推出 gpt-realtime 模型,提供更自然、具表现力的声音,适用于客户服务和实时翻译等场景,与 ElevenLabs 等公司竞争,API 已全面开放,价格下调 20%。
OpenAI 推出新模型 gpt-realtime,以应对企业级 AI 语音市场日益激烈的竞争。该模型能够执行复杂的指令,并提供听起来更自然、更具表现力的声音。随着语音 AI 的不断发展,客户发现了诸如客户服务电话或实时翻译等应用场景,使得提供逼真声音并具备企业级安全性的 AI 市场变得火热。OpenAI 表示,其新模型提供了更加接近人类的声音,但仍需与 ElevenLabs 等公司竞争。
gpt-realtime 将在 Realtime API 上提供,该 API 也已全面开放。除了 gpt-realtime 模型外,OpenAI 还在 API 上发布了名为 Cedar 和 Marin 的新声音,并更新了其他声音以适应最新模型。OpenAI 在直播中表示,他们与构建语音应用的客户合作训练了 gpt-realtime,并将模型与实际场景如客户服务和学术辅导进行了细致对齐。
企业 AI 面临能源限制、成本上升和推理延迟等挑战,顶级团队正寻求将能源转化为战略优势,设计高效的推理架构以实现真正的吞吐量提升,并通过可持续的 AI 系统获得竞争优势。
gpt-realtime 模型在语音到语音框架下运行,能够理解口头提示并作出声音回应,非常适合需要实时响应的应用场景,如客户与应用程序互动时。例如,当客户希望退货并拨打客服平台时,他们可能会与一个能像真人一样回答问题和请求的 AI 语音助手交谈。
在直播中,T-Mobile 展示了一个由 AI 语音驱动的代理,帮助人们寻找新手机。另一家客户 Zillow 则展示了一个代理,帮助用户缩小选择范围以找到理想的居住地。
OpenAI 称 gpt-realtime 是其“最先进的生产就绪语音模型”。与其他语音模型类似,它可以在句子中间切换语言。然而,OpenAI 研究人员指出,gpt-realtime 能够遵循更复杂的指令,如“用法语口音强调地说”。
尽管如此,gpt-realtime 仍面临来自其他品牌已广泛使用的模型的竞争。ElevenLabs 在五月推出了 Conversation AI 2.0;Soundhound 与快餐连锁店合作开发了 AI 语音点餐系统;情感 AI 初创公司 Hume 推出了 EVI 3 模型,允许用户生成自己声音的 AI 版本。
随着企业发现语音 AI 的多种应用场景,越来越多的通用模型提供商也开始提供多模态大模型。Mistral 发布了新的 Voxtral 模型,声称其在实时翻译方面表现出色。谷歌也在增强其音频功能,其 NotebookLM 的音频功能可将研究笔记转换为播客,越来越受欢迎。
OpenAI 表示,gpt-realtime 更智能,能更好地理解原生音频,包括捕捉笑声或叹息等非语言暗示。使用 Big Bench Audio 评估基准测试显示,该模型准确率为 82.8%,而其先前模型的准确率为 65.6%。OpenAI 未提供 gpt-realtime 与竞争对手模型的对比数据。
OpenAI 致力于提高模型的指令遵循能力,确保模型能更有效地遵守指示。新模型在 MultiChallenge 音频基准上得分为 30.5%。工程师们还增强了函数调用功能,使 gpt-realtime 能访问正确的工具。
为了支持新模型并改进企业将实时 AI 功能集成到应用中的方式,OpenAI 为 Realtime API 添加了多项新功能。API 现在支持 MCP 并能识别图像输入,可以实时告知用户所见内容。此外,Realtime API 还支持会话发起协议 (SIP),将应用程序连接到电话网络或办公电话,拓展了更多的联络中心应用场景。用户还可以在 API 上保存和重用提示。
迄今为止,人们对该模型印象深刻,尽管这些只是最近发布的模型的初步测试。
OpenAI 将 GPT 实时服务的价格下调 20%,音频输入每百万 token 收费 32 美元,音频输出每百万 token 收费 64 美元。
VB Daily 提供每日商业应用案例洞察,帮助你了解企业在生成式 AI 方面的最新动态,从监管变化到实际部署,让你能够分享有价值的见解,实现最大投资回报。
订阅 VB Daily,获取更多资讯。
如需查看隐私政策,请点击此处。
如遇问题,请重试。
(以上内容均由Ai生成)