ChatGPT把语音搬进主界面:边说边看图,转录实时生成,还能一键“后悔”回到旧版
快速阅读: OpenAI取消独立“语音模式”,将实时语音与视觉输出嵌入ChatGPT主窗口,用户可边说边看地图、图表,文字转录同步显示,无需切换页面,提升交互体验。
OpenAI宣布取消独立的“语音模式”入口,将实时语音与视觉输出直接嵌入ChatGPT主聊天窗口。用户只需按住🎤图标,即可一边说话一边查看地图、图表或图片,对话的文字转录会同步显示,无需再切换页面。
核心更新包括:
– 多模态同屏:在语音提问时,界面会实时显示相关的视觉结果(如路线地图、数据图表、商品图等),并自动滚动文字转录。
– 交互零打断:用户可以连续追问,模型在语音回复的同时更新画面,平均延迟低于300毫秒。
– 后悔药开关:在设置中选择“语音”下的“沉浸式音频模式”,可以切换回旧版独立界面,以满足纯音频偏好的需求。
技术方面,新功能由GPT-5.1-large结合多模态视觉编码器驱动,上下文窗口容量达到100k tokens。语音处理采用端侧VAD(语音活动检测)和云端ASR(自动语音识别),转录准确率达到96%,支持12种语言。
发布与覆盖情况如下:
– 即刻推送:Plus、Pro和Team用户的全平台均可立即使用,免费版用户将稍后分批开放。
– 硬件适配:已针对iPhone15系列和Pixel9进行了优化,在低功耗模式下对续航的影响小于4%。
– API计划:预计于2026年第一季度向开发者开放RealtimeMultimodal接口,支持在第三方应用程序中调用相同级别的语音和视觉功能。
OpenAI表示,此次合并是“ChatGPT6.0体验”的第一步,未来还将加入购物比价、群聊语音等功能,持续扩展多模态应用的边界。
(以上内容均由Ai生成)