OpenAI发布GPT-Realtime，专为语音AI设计

发布时间：2025年8月29日来源：szf

快速阅读: OpenAI发布GPT-Realtime，专为语音AI设计，支持多模态输入，提升推理和指令遵循能力，新增Marin和Cedar语音风格，适用于客服、教育等领域，强化安全防护，音频输入token降价20%。

OpenAI 在凌晨1点举行技术直播，正式发布全新的语音模型——GPT-Realtime。这款多模态模型专为语音 AI Agent 设计，旨在生成更加自然流畅的语音，能够模仿人类丰富多样的语调、情感和语速。GPT-Realtime 应用广泛，涵盖客服、教育、金融和医疗等多个领域，为打造智能语音助手提供了强大支持。

GPT-Realtime 新增了两种独特的语音风格——Marin 和 Cedar，并对原有的八种语音进行全面升级。与传统语音模型不同，GPT-Realtime 不仅能生成语音，还具备智力、推理和理解能力。例如，模型能准确捕捉笑声等非语言信号，并在对话中灵活切换语言，适应不同场景需求。

在评估方面，GPT-Realtime 在多种语言环境下的字母数字序列检测准确率显著提升，推理能力评估中的准确率达到82.8%，成为当前智能语音模型中的佼佼者。指令遵循能力的改进是该模型的一大亮点，开发者可以通过自定义指令，提升模型的响应效果。在 MultiChallenge 音频基准测试中，GPT-Realtime 的指令遵循准确率从20.6% 提升至30.5%。

除了语音生成能力，GPT-Realtime 还支持图像输入。开发者在会话中可以将图像与音频或文本结合使用，使模型能够基于用户所见内容展开对话，提供更加个性化的交互体验。此外，Realtime API 的全新功能让开发者可以方便地连接到远程 MCP 服务器，简化集成过程，提高开发效率。

在安全与隐私方面，Realtime API 配备了多层保护措施，通过实时监测对话内容，防止滥用行为的发生。同时，开发者可根据需要添加自定义安全防护，确保使用环境的安全。

从发布之日起，所有开发者都可以使用新的 Realtime API 和 GPT-Realtime 模型，音频输入 token 的价格降低了20%。此外，开发者还可以灵活设置智能 token 限制，以降低长时间对话的成本。

划重点：

🌟 GPT-Realtime 是 OpenAI 最新发布的多模态语音模型，适用于客服、教育等多个领域。

📈 该模型的推理能力和指令遵循准确率有显著提升，为开发者提供更强大的支持。

🔒 Realtime API 配备安全防护措施，确保用户交互的安全性和隐私性。

(以上内容均由Ai生成)