ChatGPT把语音搬进主界面：边说边看图，转录实时生成，还能一键“后悔”回到旧版

发布时间：2025年11月26日来源：szf

快速阅读: OpenAI取消独立“语音模式”，将实时语音与视觉输出嵌入ChatGPT主窗口，用户可边说边看地图、图表，文字转录同步显示，无需切换页面，提升交互体验。

OpenAI宣布取消独立的“语音模式”入口，将实时语音与视觉输出直接嵌入ChatGPT主聊天窗口。用户只需按住🎤图标，即可一边说话一边查看地图、图表或图片，对话的文字转录会同步显示，无需再切换页面。

核心更新包括：

– 多模态同屏：在语音提问时，界面会实时显示相关的视觉结果（如路线地图、数据图表、商品图等），并自动滚动文字转录。

– 交互零打断：用户可以连续追问，模型在语音回复的同时更新画面，平均延迟低于300毫秒。

– 后悔药开关：在设置中选择“语音”下的“沉浸式音频模式”，可以切换回旧版独立界面，以满足纯音频偏好的需求。

技术方面，新功能由GPT-5.1-large结合多模态视觉编码器驱动，上下文窗口容量达到100k tokens。语音处理采用端侧VAD（语音活动检测）和云端ASR（自动语音识别），转录准确率达到96%，支持12种语言。

发布与覆盖情况如下：

– 即刻推送：Plus、Pro和Team用户的全平台均可立即使用，免费版用户将稍后分批开放。

– 硬件适配：已针对iPhone15系列和Pixel9进行了优化，在低功耗模式下对续航的影响小于4%。

– API计划：预计于2026年第一季度向开发者开放RealtimeMultimodal接口，支持在第三方应用程序中调用相同级别的语音和视觉功能。

OpenAI表示，此次合并是“ChatGPT6.0体验”的第一步，未来还将加入购物比价、群聊语音等功能，持续扩展多模态应用的边界。

(以上内容均由Ai生成)

你可能还想读