ChatGPT语音模式:打字时代或将终结
快速阅读: ChatGPT推出语音模式,实现自然流畅对话,智能等待用户说完,理解停顿,适用于多种场景,如开车、做饭等,提升交互体验,成为AI互动新方式。
多年来,我对语音助手感到非常沮丧。你肯定知道这种情况:你的话还没说完就被打断,或者它完全误解了你的请求,最终你只能拿起手机手动输入。因此,当我尝试使用ChatGPT的语音模式时,我的期望其实很低。
然而,我从未如此高兴地发现自己错了。
这不仅仅是一个语音转文字的功能;它感觉就像在进行一场真实而流畅的对话。它能够智能地等待你说完自己的想法,理解你的自然停顿,不会因为“嗯”或口吃而被打乱。我可以在做饭或开车时使用它,像正常人一样说话,无需精心规划每一句话。这不仅比打字更快,而且是一种更直观、更有用的与AI互动的方式。如果你一直在忽略这个功能,那你真的错过了很多。
不要错过:
什么是ChatGPT?关于这款AI聊天机器人的所有你需要了解的信息
来自OpenAI的ChatGPT并不是唯一一款支持免提操作的聊天机器人。谷歌的Gemini Live也提供了类似的“随我说话,它会跟上”的体验。Anthropic的Claude在其移动应用中推出了语音模式的测试版,配有屏幕上的要点提示。Perplexity的iOS和Android助手也可以通过语音回答问题,并根据命令启动如OpenTable或Uber等应用程序。
即使大家都在竞相掌握实时AI对话技术,ChatGPT仍然是我的首选。无论你选择哪个聊天机器人,都请暂时放下键盘,试一试语音选项。它远比你想象的有用。
(披露:CNET的母公司Ziff Davis于四月对OpenAI提起诉讼,指控其侵犯了Ziff Davis的版权以训练和运营其AI系统。)
观看视频:
ChatGPT的病毒性功能:将人们变成行动人物
01:19
语音模式到底是什么?
语音聊天(或称“语音对话”)是ChatGPT的免提模式,允许你与AI模型交谈并听到它的回应,无需打字。在移动端、桌面端和网页应用的任何对话底部右侧,你会看到一个语音图标。按下按钮后,你可以大声说出问题,ChatGPT会将其转录、分析并回复。一旦它说完,就会再次开始监听,从而形成自然的来回对话。
请注意:
语音模式基于与普通ChatGPT相同的大型语言模型,因此它仍然可能出现幻觉或错误。对于重要事项,请务必再次核实。
OpenAI提供了两种语音对话版本:标准语音(免费默认选项,轻量级)和高级语音(仅供付费用户使用)。
标准语音首先将你的语音转换为文本,并通过GPT-4o(及GPT-4o迷你版)处理,回复速度稍慢。而高级语音则使用原生多模态模型,意味着它可以“听到”你,并生成音频,使对话更加自然且实时进行。它可以捕捉到除词语本身之外的线索,比如你的语速或声音中的情感,并据此作出调整。
注意:
免费用户可以每天预览一次高级语音功能。
纳尔逊·阿吉拉尔/CNET
你应该开始使用ChatGPT语音模式功能的七个理由
1. 真正的对话体验
与打字不同,当我和ChatGPT交谈时,我不需要寻找合适的词汇或每打错一个字就退格。我只是像与朋友或家人交流那样自然地说话,包括那些“嗯”和“呃”以及其他尴尬的停顿。语音模式能适应我所有的半成品想法,并以完整详细的答案或进一步的问题回应我,帮助我明确需求。这种轻松的交流感觉比打字自然得多。
2. 可以免提使用ChatGPT
当然,我仍然需要打开ChatGPT应用并点击语音模式按钮来开始,但一旦开始,我就可以不再用手继续与AI聊天机器人的对话。我可以困在车流中时计划今年晚些时候的度假行程。我可以询问航班、酒店、地标、餐馆等信息,无需触碰手机,这些对话都会保存在应用中,这样我不必记住ChatGPT告诉我的所有内容。
3. 适合学习新语言,提供实时翻译
之前提到过,我用语音模式练习语言,这一功能在这方面表现优异。我可以讲英语,让ChatGPT用完美的波兰语回应,包括发音指导。只需向语音模式提问:“你能帮我练习(某种语言)吗?”它会给出几种帮助方式,如对话启动器、基本词汇或数字。它还会记住你上次的学习进度,因此你可以持续学习,无需依赖Duolingo。
4. 获取关于现实世界事物的答案
这项功能专属于高级语音模式,但我认为这是语音模式中最吸引我的特点。得益于其多模态能力,我可以通过开启手机摄像头或拍摄视频/照片来请求ChatGPT的帮助。例如,我在一家旧货店发现了一幅画作,店主不知道它的来历,我感到难以辨认。于是,我启动了语音聊天,打开摄像头并询问这幅画的来源。几秒钟内,ChatGPT就告诉了我画作的名称、作者的名字以及创作时间。
对于视力低下或患有读写困难的人来说,语音模式是一个更好的选择。语音模式可以将你的语音转录成文字,然后以你选择的速度(可以在设置中调整或要求ChatGPT放慢速度)朗读答案。这种无需手动操作的选项也适合有运动障碍的人群,只需轻触一下即可开始和停止,无需在键盘上进行大量打字。
在灵感迸发时,我的思维速度往往超过了打字速度,因此ChatGPT的语音模式非常适合快速构思故事点子、规划客厅的新布局或是决定本周要烹饪的有趣菜肴。因为我在大声思考而不是盯着手机屏幕,所以我的想法能够更快、更顺畅地涌现,尤其是在ChatGPT即时回应的帮助下。它帮助我保持思路的连贯性,直到我为正在构思的内容形成一个完善的想法。
即时的摘要功能可以让你边做家务边听。将一份90页的PDF文档,如电影剧本或教科书,放入聊天框中,请求摘要,然后让AI为你朗读,同时你可以折叠衣物。这就像将任何文档(即使是维基百科页面)变成按需播放的播客。
语音模式不仅仅是一个有趣的附加功能,它提供了一种快速且自然的方式使用ChatGPT。无论是翻译路牌、头脑风暴还是大声了解新闻,与ChatGPT对话的感觉更像是与一位知识渊博的小专家交谈,而非使用一个聊天机器人。一旦习惯了大声思考,你可能再也不会回到键盘输入了。
(以上内容均由Ai生成)