AI

OpenAI推出GPT-Realtime,支持图像输入,AI交互再升级

发布时间:2025年8月29日    来源:szf
OpenAI推出GPT-Realtime,支持图像输入,AI交互再升级

快速阅读: OpenAI发布GPT-Realtime模型,具备多模态输入、低延迟和高表达力,支持图像输入和远程通信,优化指令遵循,成本降低20%,推动语音AI市场发展。

OpenAI 推出最新语音模型 GPT-Realtime,这款多模态语音 Agent 模型凭借强大的推理能力、图像输入支持和优化的指令遵循功能引起行业热议。GPT-Realtime 在语音交互方面取得突破,并通过集成图像输入、远程 MCP 和 SIP 电话呼叫等功能,为开发者提供更智能、更灵活的语音 Agent 解决方案。

GPT-Realtime 是 OpenAI 至今最先进的语音到语音模型,专为生产级语音 Agent 设计,采用单一模型直接处理和生成音频,显著降低了传统语音交互中的延迟问题。与传统语音交互系统需要串联语音转文本(STT)、文本推理和文本转语音(TTS)多个模型不同,GPT-Realtime 通过端到端架构保留了语音的语调、情感和口音等细微差别,带来更加自然、流畅的对话体验。该模型支持多种模态输入,包括文本、音频和图像,标志着 OpenAI 在多模态 AI 领域的重大突破。

GPT-Realtime 在智力、推理和理解能力上表现出色,尤其擅长处理复杂交互场景。其核心亮点包括:

– 非语言信号识别:模型能敏锐捕捉笑声、停顿等非语言线索,提升交互的自然度和人性化体验。

– 语言切换与语气调整:支持在对话中无缝切换语言,并根据场景需求调整语气,如“专业客服”或“热情引导”,满足多样化应用需求。

– 高精度推理:在 BigBenchAudio 基准测试中,GPT-Realtime 的推理准确率达到 82.8%,比前代模型(65.6%)大幅提升,展现了强大的逻辑处理能力。

– 指令遵循优化:在 MultiChallenge 音频基准测试中,指令遵循准确率从 20.6% 提升至 30.5%,确保模型能严格遵循开发者设定的复杂指令,例如逐字朗读法律声明或处理字母数字序列。

GPT-Realtime 的发布带来了多项创新功能,进一步扩展了语音 Agent 的应用场景:

– 图像输入支持:模型能够处理图像输入并描述其内容,为语音交互增添视觉上下文,适用于教育、客户支持等场景。

– 远程 MCP 与 SIP 电话呼叫:支持远程 Model Context Protocol (MCP) 和 Session Initiation Protocol (SIP),开发者可将 GPT-Realtime 集成至电话系统或外部工具,实现更广泛的实时交互。

– 上下文精细控制:模型支持可重用提示和会话修剪功能,开发者可精确管理对话上下文,优化成本和性能。

OpenAI 还下调了 Realtime API 的价格,音频输入每百万 token 降至 32 美元,音频输出每百万 token 降至 64 美元,分别降低 20%,为开发者提供更经济的解决方案。相比传统语音交互 pipeline,GPT-Realtime 通过单模型处理大幅降低延迟和成本,助力企业在客户支持、个人助理和教育等领域部署高效语音 Agent。

GPT-Realtime 的发布进一步加剧了语音 AI 市场的竞争。Anthropic、Meta 和 Mistral 等公司近期也在加速布局语音技术,例如 Anthropic 的 Claude 语音模式和 Mistral 的 Voxtral 模型。OpenAI 通过 GPT-Realtime 的低延迟、高表达力和多模态支持,巩固了其在语音 AI 领域的领先地位。业内分析认为,该模型的图像输入和通信集成功能将推动语音 Agent 在企业级应用的普及,特别是在客服中心和实时翻译等场景。

OpenAI 表示,GPT-Realtime 是其多模态战略的重要一步,未来将进一步扩展至视频等模态,为开发者提供更全面的 AI 交互工具。结合 OpenAI 近期推出的 Agents SDK,开发者只需几行代码即可将现有文本应用升级为语音交互应用,极大降低了开发门槛。预计 GPT-Realtime 的开放性和高性能将加速语音 Agent 在全球范围内的商业化落地。

GPT-Realtime 凭借卓越的多模态能力、优化的指令遵循和低成本优势,为语音 AI 领域树立了新标杆。OpenAI 通过整合图像输入和通信功能,不仅提升了语音 Agent 的实用性,也为开发者打造了更灵活、高效的开发环境。这一发布无疑将推动 AI 交互技术迈向新的高度,值得行业持续关注。

API 地址:https://platform.openai.com/docs/guides/realtime

(以上内容均由Ai生成)

你可能还想读

英伟达4B小模型登顶ARC评测,成本仅GPT-5 Pro的136

英伟达4B小模型登顶ARC评测,成本仅GPT-5 Pro的136

快速阅读: 12月8日消息,英伟达推出4B参数小模型NVARC,在ARC-AGI2评测中以27.64%准确率超越GPT-5Pro,单任务推理成本仅0.2美元,凭借零预训练策略和合成数据实现高效低成本部署。 近日,英伟达研发的4B参数小模型N […]

发布时间:2025年12月8日
Meta收购Limitless加码AI可穿戴设备

Meta收购Limitless加码AI可穿戴设备

快速阅读: 据最新消息,Meta收购AI可穿戴设备公司Limitless,后者以无屏幕智能吊坠著称,具备语音交互与实时转录功能;收购后团队并入Meta,专注AI硬件研发,现有产品将停售但提供一年技术支持。 日前,美国科技企业Meta宣布收购 […]

发布时间:2025年12月8日
沐曦股份科创板申购中签率公布

沐曦股份科创板申购中签率公布

快速阅读: 12月8日消息,沐曦集成电路科创板IPO网上申购户数达517.52万户,启动回拨后最终中签率升至0.03348913%,拟募资39.04亿元用于高性能GPU研发及产业化。 12月8日,国产GPU企业沐曦集成电路(上海)股份有限公 […]

发布时间:2025年12月8日
阿里推Qwen3-TTS:49音色10语9方言,WER碾压商用模型

阿里推Qwen3-TTS:49音色10语9方言,WER碾压商用模型

快速阅读: 12月8日消息,阿里巴巴推出通义千问Qwen3-TTS语音合成模型,支持49种音色、10种语言及9种方言,免费开放每月百万字符额度,并在上海120所中小学试点教育应用。 今日,阿里巴巴正式推出通义千问Qwen3系列新成员——Qw […]

发布时间:2025年12月8日
京东云JoyBuilder千卡训练提速3.5倍

京东云JoyBuilder千卡训练提速3.5倍

快速阅读: 12月8日消息,京东云JoyBuilder平台完成关键升级,支持GR00T N1.5千卡训练,兼容LeRobot框架,训练效率提升3.5倍,亿级数据训练从15小时缩短至22分钟。 日前,京东云JoyBuilder模型开发平台完成 […]

发布时间:2025年12月8日
麦肯锡:AI将取代8亿岗位,同时创造新机遇

麦肯锡:AI将取代8亿岗位,同时创造新机遇

快速阅读: 据麦肯锡全球研究院消息,到2030年全球或有8亿岗位被人工智能取代,同时创造1.3亿至2.3亿新岗位,冲击驾驶、物流、医疗、法律等多个行业,专家呼吁加强再培训与政策应对。 日前,人工智能技术快速发展引发全球关注。加州大学伯克利分 […]

发布时间:2025年12月8日
可灵AI上线主体库,角色跨场景“永不变脸”

可灵AI上线主体库,角色跨场景“永不变脸”

快速阅读: 12月8日消息,快手旗下可灵AI发布“主体库”,为O1视频模型新增长期记忆能力,用户上传单图即可跨场景调用一致角色,主体一致性超96%,并推分级服务与2025年多人功能规划。 今日,快手旗下可灵AI正式发布“主体库”(Subje […]

发布时间:2025年12月8日
n1n.ai 重塑大模型API成本与体验

n1n.ai 重塑大模型API成本与体验

快速阅读: 据最新消息,大模型API平台n1n.ai整合近500种开源与闭源模型,价格低至官方十分之一,响应快、稳定性高,已助企业降本超70%并提升用户满意度。 近日,大模型API服务平台n1n.ai凭借高性价比、高稳定性及丰富模型选择,正 […]

发布时间:2025年12月8日