OpenAI押注指令遵循与表达性语音，力争企业市场

发布时间：2025年8月29日来源：szf

快速阅读: OpenAI 推出 gpt-realtime 模型，提供更自然、具表现力的声音，适用于客户服务和实时翻译等场景，与 ElevenLabs 等公司竞争，API 已全面开放，价格下调 20%。

OpenAI 推出新模型 gpt-realtime，以应对企业级 AI 语音市场日益激烈的竞争。该模型能够执行复杂的指令，并提供听起来更自然、更具表现力的声音。随着语音 AI 的不断发展，客户发现了诸如客户服务电话或实时翻译等应用场景，使得提供逼真声音并具备企业级安全性的 AI 市场变得火热。OpenAI 表示，其新模型提供了更加接近人类的声音，但仍需与 ElevenLabs 等公司竞争。

gpt-realtime 将在 Realtime API 上提供，该 API 也已全面开放。除了 gpt-realtime 模型外，OpenAI 还在 API 上发布了名为 Cedar 和 Marin 的新声音，并更新了其他声音以适应最新模型。OpenAI 在直播中表示，他们与构建语音应用的客户合作训练了 gpt-realtime，并将模型与实际场景如客户服务和学术辅导进行了细致对齐。

企业 AI 面临能源限制、成本上升和推理延迟等挑战，顶级团队正寻求将能源转化为战略优势，设计高效的推理架构以实现真正的吞吐量提升，并通过可持续的 AI 系统获得竞争优势。

gpt-realtime 模型在语音到语音框架下运行，能够理解口头提示并作出声音回应，非常适合需要实时响应的应用场景，如客户与应用程序互动时。例如，当客户希望退货并拨打客服平台时，他们可能会与一个能像真人一样回答问题和请求的 AI 语音助手交谈。

在直播中，T-Mobile 展示了一个由 AI 语音驱动的代理，帮助人们寻找新手机。另一家客户 Zillow 则展示了一个代理，帮助用户缩小选择范围以找到理想的居住地。

OpenAI 称 gpt-realtime 是其“最先进的生产就绪语音模型”。与其他语音模型类似，它可以在句子中间切换语言。然而，OpenAI 研究人员指出，gpt-realtime 能够遵循更复杂的指令，如“用法语口音强调地说”。

尽管如此，gpt-realtime 仍面临来自其他品牌已广泛使用的模型的竞争。ElevenLabs 在五月推出了 Conversation AI 2.0；Soundhound 与快餐连锁店合作开发了 AI 语音点餐系统；情感 AI 初创公司 Hume 推出了 EVI 3 模型，允许用户生成自己声音的 AI 版本。

随着企业发现语音 AI 的多种应用场景，越来越多的通用模型提供商也开始提供多模态大模型。Mistral 发布了新的 Voxtral 模型，声称其在实时翻译方面表现出色。谷歌也在增强其音频功能，其 NotebookLM 的音频功能可将研究笔记转换为播客，越来越受欢迎。

OpenAI 表示，gpt-realtime 更智能，能更好地理解原生音频，包括捕捉笑声或叹息等非语言暗示。使用 Big Bench Audio 评估基准测试显示，该模型准确率为 82.8%，而其先前模型的准确率为 65.6%。OpenAI 未提供 gpt-realtime 与竞争对手模型的对比数据。

OpenAI 致力于提高模型的指令遵循能力，确保模型能更有效地遵守指示。新模型在 MultiChallenge 音频基准上得分为 30.5%。工程师们还增强了函数调用功能，使 gpt-realtime 能访问正确的工具。

为了支持新模型并改进企业将实时 AI 功能集成到应用中的方式，OpenAI 为 Realtime API 添加了多项新功能。API 现在支持 MCP 并能识别图像输入，可以实时告知用户所见内容。此外，Realtime API 还支持会话发起协议 (SIP)，将应用程序连接到电话网络或办公电话，拓展了更多的联络中心应用场景。用户还可以在 API 上保存和重用提示。

迄今为止，人们对该模型印象深刻，尽管这些只是最近发布的模型的初步测试。

OpenAI 将 GPT 实时服务的价格下调 20%，音频输入每百万 token 收费 32 美元，音频输出每百万 token 收费 64 美元。

VB Daily 提供每日商业应用案例洞察，帮助你了解企业在生成式 AI 方面的最新动态，从监管变化到实际部署，让你能够分享有价值的见解，实现最大投资回报。

订阅 VB Daily，获取更多资讯。

如需查看隐私政策，请点击此处。

如遇问题，请重试。

(以上内容均由Ai生成)