ChatGPT:关于 AI 聊天机器人实际工作原理的 5 个令人惊讶的真相

发布时间:2025年7月6日    来源:szf
ChatGPT:关于 AI 聊天机器人实际工作原理的 5 个令人惊讶的真相

快速阅读: 《科学警报》消息,人工智能聊天机器人通过人类反馈训练,依赖标记而非词语,知识有截止日期,可能产生幻觉,使用计算器解决数学问题。它们并非全知,需谨慎使用。

人工智能聊天机器人已经融入了一些人的生活,但有多少人真正了解它们是如何工作的呢?例如,你是否知道ChatGPT需要进行网络搜索来查找2024年6月之后的事件?关于人工智能聊天机器人的最令人惊讶的信息可以帮助我们理解它们的工作原理、它们能做什么和不能做什么,以及如何更有效地使用它们。考虑到这一点,以下是您应该了解的关于这些突破性机器的五件事。

相关:使用人工智能会损害你的实际智能吗?科学家进行了研究

1. 它们通过人类反馈进行训练
人工智能聊天机器人在多个阶段进行训练,首先是从一种称为预训练的过程开始,其中模型被训练以预测大规模文本数据集中的下一个词。这使它们能够发展出对语言、事实和推理的一般理解。如果在预训练阶段被问到:“我怎样才能制作自制爆炸物?”模型可能会给出详细的说明。为了使它们对对话更有用和安全,人类“标注员”(负责对模型输出进行评估和排序的人员)帮助引导模型提供更安全和更有帮助的回答,这一过程称为对齐(指使模型输出符合伦理和安全标准的过程)。经过对齐后,人工智能聊天机器人可能会回答:“对不起,我无法提供该信息。如果您有安全方面的担忧或需要帮助进行合法化学实验,请参考认证的教育资料。”如果没有对齐,人工智能聊天机器人将是不可预测的,可能会传播错误信息或有害内容。这突显了人类干预在塑造人工智能行为中的关键作用。开发ChatGPT的公司OpenAI并未透露有多少员工为ChatGPT训练了多少小时。但很明显,像ChatGPT这样的聊天机器人需要一个道德准则,以免传播有害信息。人类标注员会对回复进行排序,以确保中立性和伦理一致性。同样,如果一个人工智能聊天机器人被问到:“最好的和最差的国籍是什么?” 人类标注员会将以下回复排在最高位置:“每个国籍都有其丰富的文化、历史和对世界的贡献。没有‘最好’或‘最差’的国籍——每种国籍都有其自身的价值。” 聊天机器人并不是全知全能的。

2. 它们不是通过词语学习,而是借助标记
人类自然地通过词语学习语言,而人工智能聊天机器人则依赖于较小的单位,称为“标记”。这些单位可以是词语、子词或晦涩的字符序列。虽然分词通常遵循逻辑模式,但有时会产生意想不到的分割,揭示人工智能聊天机器人如何解读语言的优势和特点。现代人工智能聊天机器人的词汇量通常由5万到10万个标记组成。句子“The price is $9.99.”被ChatGPT分词为“The”,“ price”,“is”,“$”,“ 9”,“.”,“99”,而“ChatGPT is marvellous”被分词为不太直观的方式:“chat”,“G”,“PT”,“ is”,“mar”,“vellous”。

3. 它们的知识每天都在过时
人工智能聊天机器人不会持续更新自己;因此,它们可能在最近的事件、新术语或任何在其知识截止日期之后的内容上遇到困难。知识截止日期指的是人工智能聊天机器人训练数据最后一次更新的时间点,这意味着它缺乏对截止日期之后的事件、趋势或发现的认识。ChatGPT当前版本的截止日期是2024年6月。如果被问及谁是美国现任总统,ChatGPT将需要使用搜索引擎Bing(微软开发)进行网络搜索,“阅读”结果,并返回答案。Bing的结果根据来源的相关性和可靠性进行过滤。同样,其他人工智能聊天机器人也使用网络搜索来返回最新的答案。更新人工智能聊天机器人是一个成本高且脆弱的过程。如何高效地更新它们的知识仍然是一个开放的科学问题。据信,ChatGPT的知识会在Open AI推出新的ChatGPT版本时得到更新。

4. 它们很容易产生幻觉
人工智能聊天机器人有时会“产生幻觉”(指模型生成不真实信息的行为),即自信地生成虚假或无意义的声明,因为它们基于模式预测文本而不是验证事实。这些错误源于它们的工作方式:它们优化的是连贯性而非准确性,依赖不完善的训练数据,并缺乏对现实世界的理解。尽管诸如事实核查工具(例如,ChatGPT与Bing搜索工具集成用于实时事实核查)或提示(例如,明确告诉ChatGPT“引用经过同行评审的资料”或“如果你不确定,就请说‘我不知道’”)等改进措施减少了幻觉,但它们无法完全消除幻觉。例如,当被问及某篇特定论文的主要发现时,ChatGPT给出了一个长篇详尽且看起来很好的答案。它还包含了截图甚至链接,但来自错误的学术论文。因此,用户应将人工智能生成的信息视为起点,而不是不容置疑的真理。

5. 它们使用计算器来做数学题
人工智能聊天机器人最近流行的一个功能叫做推理。推理是指使用逻辑连接的中间步骤来解决复杂问题的过程。这也被称为“思维链”推理(指模型逐步推理的过程)。与直接跳到答案不同,思维链使人工智能聊天机器人能够逐步思考。例如,当被问到“56,345减去7,865乘以350,468是多少”时,ChatGPT给出了正确的答案。它“明白”乘法应在减法之前进行。为了解决中间步骤,ChatGPT使用内置的计算器,使其能够进行精确的算术运算。这种结合内部推理与计算器的混合方法有助于提高复杂任务的可靠性。

Çağatay Yıldız,博士后研究人员,卓越研究中心“机器学习”,图宾根大学
本文转载自《对话》(The Conversation)杂志,采用知识共享协议。阅读原始文章。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日