AI

OpenAI押注指令遵循与表达性语音,力争企业市场

发布时间:2025年8月29日    来源:szf
OpenAI押注指令遵循与表达性语音,力争企业市场

快速阅读: OpenAI 推出 gpt-realtime 模型,提供更自然、具表现力的声音,适用于客户服务和实时翻译等场景,与 ElevenLabs 等公司竞争,API 已全面开放,价格下调 20%。

OpenAI 推出新模型 gpt-realtime,以应对企业级 AI 语音市场日益激烈的竞争。该模型能够执行复杂的指令,并提供听起来更自然、更具表现力的声音。随着语音 AI 的不断发展,客户发现了诸如客户服务电话或实时翻译等应用场景,使得提供逼真声音并具备企业级安全性的 AI 市场变得火热。OpenAI 表示,其新模型提供了更加接近人类的声音,但仍需与 ElevenLabs 等公司竞争。

gpt-realtime 将在 Realtime API 上提供,该 API 也已全面开放。除了 gpt-realtime 模型外,OpenAI 还在 API 上发布了名为 Cedar 和 Marin 的新声音,并更新了其他声音以适应最新模型。OpenAI 在直播中表示,他们与构建语音应用的客户合作训练了 gpt-realtime,并将模型与实际场景如客户服务和学术辅导进行了细致对齐。

企业 AI 面临能源限制、成本上升和推理延迟等挑战,顶级团队正寻求将能源转化为战略优势,设计高效的推理架构以实现真正的吞吐量提升,并通过可持续的 AI 系统获得竞争优势。

gpt-realtime 模型在语音到语音框架下运行,能够理解口头提示并作出声音回应,非常适合需要实时响应的应用场景,如客户与应用程序互动时。例如,当客户希望退货并拨打客服平台时,他们可能会与一个能像真人一样回答问题和请求的 AI 语音助手交谈。

在直播中,T-Mobile 展示了一个由 AI 语音驱动的代理,帮助人们寻找新手机。另一家客户 Zillow 则展示了一个代理,帮助用户缩小选择范围以找到理想的居住地。

OpenAI 称 gpt-realtime 是其“最先进的生产就绪语音模型”。与其他语音模型类似,它可以在句子中间切换语言。然而,OpenAI 研究人员指出,gpt-realtime 能够遵循更复杂的指令,如“用法语口音强调地说”。

尽管如此,gpt-realtime 仍面临来自其他品牌已广泛使用的模型的竞争。ElevenLabs 在五月推出了 Conversation AI 2.0;Soundhound 与快餐连锁店合作开发了 AI 语音点餐系统;情感 AI 初创公司 Hume 推出了 EVI 3 模型,允许用户生成自己声音的 AI 版本。

随着企业发现语音 AI 的多种应用场景,越来越多的通用模型提供商也开始提供多模态大模型。Mistral 发布了新的 Voxtral 模型,声称其在实时翻译方面表现出色。谷歌也在增强其音频功能,其 NotebookLM 的音频功能可将研究笔记转换为播客,越来越受欢迎。

OpenAI 表示,gpt-realtime 更智能,能更好地理解原生音频,包括捕捉笑声或叹息等非语言暗示。使用 Big Bench Audio 评估基准测试显示,该模型准确率为 82.8%,而其先前模型的准确率为 65.6%。OpenAI 未提供 gpt-realtime 与竞争对手模型的对比数据。

OpenAI 致力于提高模型的指令遵循能力,确保模型能更有效地遵守指示。新模型在 MultiChallenge 音频基准上得分为 30.5%。工程师们还增强了函数调用功能,使 gpt-realtime 能访问正确的工具。

为了支持新模型并改进企业将实时 AI 功能集成到应用中的方式,OpenAI 为 Realtime API 添加了多项新功能。API 现在支持 MCP 并能识别图像输入,可以实时告知用户所见内容。此外,Realtime API 还支持会话发起协议 (SIP),将应用程序连接到电话网络或办公电话,拓展了更多的联络中心应用场景。用户还可以在 API 上保存和重用提示。

迄今为止,人们对该模型印象深刻,尽管这些只是最近发布的模型的初步测试。

OpenAI 将 GPT 实时服务的价格下调 20%,音频输入每百万 token 收费 32 美元,音频输出每百万 token 收费 64 美元。

VB Daily 提供每日商业应用案例洞察,帮助你了解企业在生成式 AI 方面的最新动态,从监管变化到实际部署,让你能够分享有价值的见解,实现最大投资回报。

订阅 VB Daily,获取更多资讯。

如需查看隐私政策,请点击此处。

如遇问题,请重试。

(以上内容均由Ai生成)

你可能还想读

美国科技未来需投资人才与科研

美国科技未来需投资人才与科研

快速阅读: 据最新消息,美国政府拟持股英特尔10%,以强化半导体战略,但专家强调需同步加大基础科研投入并解决STEM人才短缺,方能维系科技领先地位。 近日,美国政府宣布将持有英特尔公司10%的股权,引发广泛关注。此举被视为对本国半导体制造业 […]

发布时间:2025年12月8日
康宁押注AI数据中心光纤需求激增

康宁押注AI数据中心光纤需求激增

快速阅读: 据康宁公司介绍,AI数据中心加速转向光纤互联,单节点集成72颗GPU,布线长达两英里;因算力激增与带宽需求,光通信将推动AI硬件生态结构性变革,市场或扩至三倍。 近日,人工智能硬件基础设施加速升级,数据中心内部连接技术正经历重要 […]

发布时间:2025年12月8日
智能体AI重塑政府与民众服务关系

智能体AI重塑政府与民众服务关系

快速阅读: 据最新消息,AI代理技术在能源、环保、医疗和教育等领域试点成效显著,提升地震解释准确率70%,优化垃圾清运与课程设置,推动公共服务向智能优化转型。 近日,人工智能代理技术在公共服务领域展现出显著应用潜力。今年1月,阿布扎比国家石 […]

发布时间:2025年12月8日
英警方呼吁中央统筹AI应用

英警方呼吁中央统筹AI应用

快速阅读: 据techUK发布消息称,英格兰和威尔士警方需建立中央统筹机制并加大投入,以释放AI在执法中的潜力,解决应用不均、数据质量及算法偏见等问题,推动全国协调与透明治理。 英国信息技术行业组织techUK近日发布报告指出,英格兰和威尔 […]

发布时间:2025年12月8日
Viam携手优傲机器人推AI自动化方案

Viam携手优傲机器人推AI自动化方案

快速阅读: 据最新消息,美国Viam公司与优傲机器人达成合作,基于UR系列协作机器人开发AI驱动的表面处理系统,已应用于船舶打磨,并拓展至家具、建筑等行业,推动制造智能化转型。 近日,美国纽约企业Viam宣布与泰瑞达集团旗下优傲机器人公司( […]

发布时间:2025年12月8日
AI智能体破解医疗沟通困局

AI智能体破解医疗沟通困局

快速阅读: 据最新消息,美国医疗系统因信息孤岛问题导致患者沟通受阻,AI智能体技术正通过代理式通信提升诊疗协同效率,企业Infinitus已推动该方案在随访与用药管理等场景落地。 近日,美国医疗系统在信息互通方面面临的严峻挑战引发广泛关注。 […]

发布时间:2025年12月8日
AI虚拟演员Tilly Norwood引行业争议

AI虚拟演员Tilly Norwood引行业争议

快速阅读: 据美联社报道,AI虚拟演员蒂莉·诺伍德由Particle6公司打造,旨在探索影视AI应用,团队正优化其自然表现并计划明年推出互动功能,但遭部分经纪公司抵制。 近日,人工智能虚拟演员“蒂莉·诺伍德”(Tilly Norwood)再 […]

发布时间:2025年12月8日
苹果硬件主管或离职,芯片业务面临巨变

苹果硬件主管或离职,芯片业务面临巨变

快速阅读: 据彭博社报道,苹果硬件技术主管斯鲁吉考虑离职,其主导自研M系列与A19 Pro芯片,深度支撑全系产品,潜在出走或重创苹果芯片优势并撼动行业格局。 据彭博社日前报道,苹果公司高级副总裁、硬件技术主管约翰尼·斯鲁吉正考虑离职。斯鲁吉 […]

发布时间:2025年12月8日