礼貌教会了 ChatGPT 什么——以及为什么 OpenAI 的人工智能要花数百万美元来听
快速阅读: 《加密新闻》消息,研究表明,使用礼貌语言与AI交互不仅体现礼貌,还可能影响AI的回答质量和效率。尽管说“请”和“谢谢”会增加计算成本,但适度礼貌能提升AI回答的准确性和相关性,同时减少偏见。不过,极端礼貌或粗鲁均可能导致不佳效果,适度才是关键。
“请”和“谢谢”只是良好礼貌的表现,还是它们正在改变ChatGPT的学习方式和行为?甚至让OpenAI的人工智能每天花费数百万美元?
**说“请”可能要花费数百万美元**
这是我们大多数人在小时候就被教导的内容:说“请”,说“谢谢”。礼貌看似无需成本,但在人工智能领域,这种传统智慧可能已经不再适用。对聊天机器人讲礼貌实际上可能会带来额外的成本。
在X平台的一次简短交流中,OpenAI首席执行官山姆·阿尔特曼透露了一个关于人工智能系统如何运作的有趣细节。当被问及用户在向ChatGPT提问时加入像“请”和“谢谢”这样的额外词语会让OpenAI花费多少时,阿尔特曼回答:“花得很值得,谁知道呢。”
我们输入ChatGPT的每一个单词都会通过庞大的数据中心进行处理,这些单词会被分解成令牌,经过复杂的计算并转化为响应。即使是小小的礼貌用语也会以同样的方式处理。它们需要计算能力。
这意味着电力消耗、冷却系统以及每次请求需要更多时间。当这些额外的令牌在数百万次对话中累积时,它们会转化为真实的能源和基础设施成本。
根据Future公司(TechRadar母公司)2024年12月的一项调查,美国51%的AI用户和英国45%的AI用户经常使用AI助手或聊天机器人。
其中,美国人更倾向于礼貌。在美国,67%的用户表示他们以礼貌的方式与AI交谈。在这之中,82%的人表示这样做是因为感觉这是正确的事情,无论接收者是人还是不是。剩下18%有另一种动机。他们说他们会保持礼貌,以防万一有一天AI起义——虽然可能性不大,但他们不想冒险站在错误的一边。
然后还有剩下的33%的美国用户不讲究礼貌。对他们来说,目标是快速获得答案。他们要么认为礼貌没有必要,要么认为这会减慢他们的速度。效率而非礼仪,决定了他们与AI互动的方式。
**人工智能查询与隐藏的基础设施负担**
每个来自ChatGPT的回答都由消耗电力和水的计算系统提供动力。看似简单的来回交流隐藏着资源密集型的操作,尤其是随着用户数量不断增加。
高盛的一份报告估计,每个ChatGPT-4查询大约使用2.9瓦时的电力,几乎是单个Google搜索的近十倍。
根据Epoch AI的数据,较新的模型如GPT-4o提高了效率,将每条查询的用电量减少到约0.3瓦时。
尽管如此,当数十亿次查询每天发生时,即使是很小的差异也会迅速累积。
OpenAI的运营成本反映了这一规模。据多个行业来源引用的内部估计,该公司每天花费约70万美元来维持ChatGPT的运行。
造成这种成本的主要原因是其庞大的用户群。从2024年12月到2025年初,每周用户数量从3亿跃升至超过4亿,部分原因是像吉卜力风格艺术提示等病毒式功能的推动。随着使用量激增,对电网和物理基础设施的需求也随之增加。
国际能源署预测,到2030年,数据中心将在发达经济体中推动超过20%的电力需求增长,而人工智能被认为是这一增长的主要驱动力。
水资源也是这一问题的一部分,常常被忽视。《华盛顿邮报》的一项研究发现,撰写一封包含100字的人工智能生成电子邮件大约需要0.14千瓦时的电力,足以点亮14盏LED灯一小时。
生成相同的响应可能会消耗40到50毫升的水,主要用于冷却处理数据的服务器。
在大规模情况下,这种水平的消耗引发了更广泛的担忧。在拥有美国最高密度数据中心的弗吉尼亚州,2019年至2023年间用水量增加了近三分之二。根据《金融时报》的一项调查,仅在2023年总消耗就达到了至少18.5亿加仑。
随着数据中心在全球范围内扩展,尤其是在电价和土地价格较低的地区,对当地水资源和能源供应的压力预计将进一步增加。一些这些地区可能无法应对长期影响。
**你的语气教会了人工智能什么**
在基于大量人类对话训练的人工智能系统中,用户的提示语气可以强烈影响响应的语气。
使用礼貌语言或完整句子通常会导致感觉更加信息丰富、上下文敏感和尊重的回答。这种结果并非偶然。
幕后,像ChatGPT这样的模型是在海量人类写作的数据集上训练的。在微调过程中,它们会经历一种称为从人类反馈中强化学习的过程。
在这个阶段,真实的人类根据诸如有用性、语气和连贯性等标准评估数千个模型回复。
当一个结构良好或礼貌的提示导致更高的评分时,模型开始偏向这种风格。随着时间推移,这会在模型中形成对清晰和尊重语言模式的内在偏好。
现实世界中的例子进一步证实了这一点。在一个非正式的Reddit实验中,一位用户比较了相同问题在带有和不带“请”和“谢谢”的情况下得到的人工智能回复。礼貌版本往往触发更长、更详细且更相关的回复。
另一项发表在Hackernoon上的分析发现,不礼貌的提示往往会生成更多事实错误和偏见内容,而适度礼貌的提示在准确性与细节间找到了最佳平衡。
这种模式在各种语言中也成立。在涉及英语、中文和日语的跨语言测试中,研究人员观察到粗鲁的提示降低了模型的整体性能。
极端礼貌并不总是能带来更好的答案,但适度礼貌通常能提升质量。结果还揭示了文化差异,表明什么是“适当”的礼貌水平可能因语言和上下文而异。
话虽如此,礼貌并非总是万全之策。最近的一项提示工程审查测试了26种策略来改善人工智能输出。其中包括添加像“请”这样的词。
结果显示,虽然这些短语有时会有帮助,但在GPT-4中它们并不始终能提高正确性。在某些情况下,添加额外的词语引入了噪声,使回复变得不那么清晰或精确。
一项在2025年3月进行的更详细的研究考察了八个不同级别的礼貌,从极其正式的要求到完全粗鲁。
研究人员使用BERTScore和ROUGE-L等基准测量了总结任务的结果。准确性和相关性在语气变化时保持相对一致。
然而,回复的长度有所不同。GPT-3.5和GPT-4在提示非常生硬时给出较短的答案。LLaMA-2的行为不同,在中等礼貌时产生最短的回复,在极端情况下则较长。
礼貌似乎也会影响人工智能模型处理偏见的方式。在刻板印象检测测试中,过于礼貌和敌对的提示都增加了偏见或拒绝响应的可能性。适度礼貌的表现最为理想,既能最小化偏见又能避免不必要的审查。
在测试的模型中,GPT-4最不可能完全拒绝,但所有模型都显示出类似的趋势——似乎有一个甜点区域,语气有助于模型准确回应而不损害平衡。
最终,我们说什么以及怎么表达,决定了我们得到什么。无论是追求更优的答案、减少偏见,还是仅仅希望更周到的互动,我们的措辞选择都具有分量。
尽管礼貌并非总是提升表现,但它常常让我们更接近于与越来越多与我们互动的机器所期望的对话方式。
(以上内容均由Ai生成)