AI

OpenAI押注指令遵循与表达性语音,力争企业市场

发布时间:2025年8月29日    来源:szf
OpenAI押注指令遵循与表达性语音,力争企业市场

快速阅读: OpenAI 推出 gpt-realtime 模型,提供更自然、具表现力的声音,适用于客户服务和实时翻译等场景,与 ElevenLabs 等公司竞争,API 已全面开放,价格下调 20%。

OpenAI 推出新模型 gpt-realtime,以应对企业级 AI 语音市场日益激烈的竞争。该模型能够执行复杂的指令,并提供听起来更自然、更具表现力的声音。随着语音 AI 的不断发展,客户发现了诸如客户服务电话或实时翻译等应用场景,使得提供逼真声音并具备企业级安全性的 AI 市场变得火热。OpenAI 表示,其新模型提供了更加接近人类的声音,但仍需与 ElevenLabs 等公司竞争。

gpt-realtime 将在 Realtime API 上提供,该 API 也已全面开放。除了 gpt-realtime 模型外,OpenAI 还在 API 上发布了名为 Cedar 和 Marin 的新声音,并更新了其他声音以适应最新模型。OpenAI 在直播中表示,他们与构建语音应用的客户合作训练了 gpt-realtime,并将模型与实际场景如客户服务和学术辅导进行了细致对齐。

企业 AI 面临能源限制、成本上升和推理延迟等挑战,顶级团队正寻求将能源转化为战略优势,设计高效的推理架构以实现真正的吞吐量提升,并通过可持续的 AI 系统获得竞争优势。

gpt-realtime 模型在语音到语音框架下运行,能够理解口头提示并作出声音回应,非常适合需要实时响应的应用场景,如客户与应用程序互动时。例如,当客户希望退货并拨打客服平台时,他们可能会与一个能像真人一样回答问题和请求的 AI 语音助手交谈。

在直播中,T-Mobile 展示了一个由 AI 语音驱动的代理,帮助人们寻找新手机。另一家客户 Zillow 则展示了一个代理,帮助用户缩小选择范围以找到理想的居住地。

OpenAI 称 gpt-realtime 是其“最先进的生产就绪语音模型”。与其他语音模型类似,它可以在句子中间切换语言。然而,OpenAI 研究人员指出,gpt-realtime 能够遵循更复杂的指令,如“用法语口音强调地说”。

尽管如此,gpt-realtime 仍面临来自其他品牌已广泛使用的模型的竞争。ElevenLabs 在五月推出了 Conversation AI 2.0;Soundhound 与快餐连锁店合作开发了 AI 语音点餐系统;情感 AI 初创公司 Hume 推出了 EVI 3 模型,允许用户生成自己声音的 AI 版本。

随着企业发现语音 AI 的多种应用场景,越来越多的通用模型提供商也开始提供多模态大模型。Mistral 发布了新的 Voxtral 模型,声称其在实时翻译方面表现出色。谷歌也在增强其音频功能,其 NotebookLM 的音频功能可将研究笔记转换为播客,越来越受欢迎。

OpenAI 表示,gpt-realtime 更智能,能更好地理解原生音频,包括捕捉笑声或叹息等非语言暗示。使用 Big Bench Audio 评估基准测试显示,该模型准确率为 82.8%,而其先前模型的准确率为 65.6%。OpenAI 未提供 gpt-realtime 与竞争对手模型的对比数据。

OpenAI 致力于提高模型的指令遵循能力,确保模型能更有效地遵守指示。新模型在 MultiChallenge 音频基准上得分为 30.5%。工程师们还增强了函数调用功能,使 gpt-realtime 能访问正确的工具。

为了支持新模型并改进企业将实时 AI 功能集成到应用中的方式,OpenAI 为 Realtime API 添加了多项新功能。API 现在支持 MCP 并能识别图像输入,可以实时告知用户所见内容。此外,Realtime API 还支持会话发起协议 (SIP),将应用程序连接到电话网络或办公电话,拓展了更多的联络中心应用场景。用户还可以在 API 上保存和重用提示。

迄今为止,人们对该模型印象深刻,尽管这些只是最近发布的模型的初步测试。

OpenAI 将 GPT 实时服务的价格下调 20%,音频输入每百万 token 收费 32 美元,音频输出每百万 token 收费 64 美元。

VB Daily 提供每日商业应用案例洞察,帮助你了解企业在生成式 AI 方面的最新动态,从监管变化到实际部署,让你能够分享有价值的见解,实现最大投资回报。

订阅 VB Daily,获取更多资讯。

如需查看隐私政策,请点击此处。

如遇问题,请重试。

(以上内容均由Ai生成)

你可能还想读

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

快速阅读: Apriority宣布完成230万美元种子轮融资,由Techstars等领投。平台利用AI技术优化债务管理,帮助借款人节省利息,掌握财务控制权,尤其惠及低收入家庭。 旧金山,2025年10月23日 —— 以借款人为核心的服务平台 […]

发布时间:2025年10月23日
Cercli获1200万美元融资,加速AI劳动力平台发展

Cercli获1200万美元融资,加速AI劳动力平台发展

快速阅读: 阿联酋工作管理平台Cercli获1200万美元A轮融资,由Picus Capital领投。资金将用于产品开发、AI创新及市场扩展,目标中东、欧洲和北美。Cercli实现每月22%增长率,客户覆盖50国。 总部位于阿联酋的工作管理 […]

发布时间:2025年10月23日
扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

快速阅读: Meta宣布裁减AI部门约600名工程师,涉及FAIR等多个团队,旨在精简业务提高效率。CEO扎克伯格重申AI仍是公司核心,将继续投资高级机器学习和超级智能项目。 Meta近日宣布从其人工智能(AI)部门裁员约600名工程师,此 […]

发布时间:2025年10月23日
Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

快速阅读: 风险投资公司a16z计划筹集100亿美元,重点投资AI和国防,未提及加密货币。此举令人意外,因a16z曾是加密领域的重要支持者,近期仍积极投资相关项目。 据报道,风险投资公司安德森·霍洛维茨(a16z)正在寻求筹集约100亿美元 […]

发布时间:2025年10月23日
花旗资助香港390万港元,助力贫困青年掌握AI技能

花旗资助香港390万港元,助力贫困青年掌握AI技能

快速阅读: 花旗基金会向香港“改变年轻生命基金会”捐赠50万美元,支持为期两年的“求职挑战”项目,提升弱势青少年的人工智能技能和求职能力,增强其就业竞争力。 花旗基金会向香港“改变年轻生命基金会”拨款50万美元(约390万港元),用于为期两 […]

发布时间:2025年10月23日
AI成新界面,企业转型加速

AI成新界面,企业转型加速

快速阅读: 自动驾驶技术从微小升级到移除方向盘,彻底改变车辆设计和旅程体验,重塑汽车与环境的关系。AI发展类似,通过小步快跑实现重大转变,成为统一的用户界面,改善客户互动体验。 多年来,汽车自主驾驶功能的发展似乎只是一系列微小的升级,比如车 […]

发布时间:2025年10月23日
实博蒂克斯成立顾问委员会,推动AI技术发展

实博蒂克斯成立顾问委员会,推动AI技术发展

快速阅读: Realbotix成立顾问委员会,增强AI技术,调整董事会。成员包括谷歌萨利姆·哈桑及转任的安德鲁·德苏扎,目标推进AI与机器人技术发展。弗雷德·派退休,公司感谢其贡献。调整优化产品,强化全球市场地位。 Realbotix公司宣 […]

发布时间:2025年10月23日
OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

快速阅读: OpenAI宣布在美国扩展Stargate数据中心计划,包括威斯康星州Lighthouse项目,预计2028年完工,将开发近1吉瓦电力,采用可持续能源和环保措施,创造数千就业岗位。 该设施是OpenAI在披露美国五个Starga […]

发布时间:2025年10月23日