ChatGPT 的实际工作原理（以及为什么它如此改变游戏规则）

快速阅读: 据《ZDNet》称，本文介绍了ChatGPT如何利用生成式AI和Transformer架构，通过非监督预训练学习大量数据，以生成自然语言回应。它对比了传统搜索引擎与AI聊天机器人的不同，并探讨了其技术原理及挑战。

Elyse Betters Picaro / ZDNET

在2022年底AI聊天机器人兴起之前，像Google和Wolfram Alpha这样的工具通过单行文本输入字段与用户互动，并提供文本结果。Google返回搜索结果——一个网页和文章列表，希望能提供与搜索查询相关的信息。相比之下，Wolfram Alpha通常提供数学和数据分析相关的答案。ChatGPT则根据用户问题的上下文和意图来提供回答。当然，Google已经改变了它的回应方式，现在会先提供AI回答，很可能继续这样做。另一方面，Wolfram Alpha则在后台使用人工智能帮助它进行计算，但不提供基于人工智能的答案。

在2022年底AI聊天机器人兴起之前，像Google和Wolfram Alpha这样的工具通过单行文本输入字段与用户互动，并提供文本结果。Google返回搜索结果——一个网页和文章列表，希望能提供与搜索查询相关的信息。相比之下，Wolfram Alpha通常提供数学和数据分析相关的答案。此外：如何使用ChatGPT：最流行的AI聊天机器人的初学者指南

本质上，Google的搜索能力在于它能够进行庞大的数据库查找并提供一系列匹配结果。Wolfram Alpha的能力在于解析与数据相关的问题并执行计算。ChatGPT的能力（以及大多数其他AI聊天机器人，如Claude、Copilot、Perplexity和Google Gemini）是解析查询并基于世界上大部分可访问的文本信息生成完整详尽的答案和结果。一些聊天机器人因停止扫描时间不同而受限，但大多数现在可以访问实时互联网，将当前数据纳入其答案中。

在本文中，我们将了解ChatGPT如何利用一种称为生成式人工智能的技术来生成完整的答案。我们将首先了解ChatGPT运行的两个主要阶段，然后介绍一些使这一切运作的核心AI架构组件。

ChatGPT运行的两个主要阶段

让我们再次以Google搜索（不同于Google Gemini AI）作为类比。当你要求Google搜索某事时，你可能知道它不会在你提问的那一刻就去遍历整个网络寻找答案。相反，Google会搜索其数据库中与该请求相匹配的页面。Google搜索有两个主要阶段：抓取和数据收集阶段，以及用户交互/查询阶段。

此外：最好的AI聊天机器人：ChatGPT和其他有趣的替代品

总的来说，ChatGPT和其他AI聊天机器人工作方式类似。数据收集阶段被称为预训练，而用户互动阶段被称为推理。生成式AI的神奇之处以及它迅速发展的原因在于，预训练的方式已经被证明具有巨大的可扩展性。这种可扩展性得益于最近在廉价硬件技术和云计算方面的创新。

预训练AI是如何工作的

总体而言（因为深入细节需要大量篇幅），AI使用两种主要方法进行预训练：监督式和非监督式。直到生成式AI系统如ChatGPT出现之前，大多数AI项目都使用的是监督式方法。

预训练AI是如何工作的

此外：如何让ChatGPT提供来源和引用

监督式预训练是一个模型在带有标签的数据集上进行训练的过程，每个输入都有一个对应的输出。例如，一个AI可以在客户支持对话的数据集上进行训练，其中用户的提问和投诉都被标记为客服代表的适当回应。为了训练AI，用户输入可能是“我如何重置我的密码？”，而输出可能是“您可以通过访问我们网站上的账户设置页面并按照提示操作来重置您的密码。”在监督训练方法中，整体模型被训练以学习一个映射函数，该函数能够准确地将输入映射到输出。这个过程常用于监督学习任务，如分类、回归和序列标注。

你可以想象，这种方法在扩展方面存在局限。人工训练者必须尽可能多地预见所有的输入和输出。训练可能需要很长时间，并且在主题专业知识方面受到限制。

此外：我最喜欢的两个ChatGPT Plus功能以及我可以利用它们做的一些非凡事情

但正如我们所认识到的，ChatGPT在主题专业知识方面几乎没有限制。你可以让它为《星际迷航》中的角色Chief Miles O’Brien写一份简历，让它解释量子物理，编写一段代码，创作一篇短篇小说，并比较美国前总统的治理风格。要预见所有可能被问到的问题是不可能的，因此ChatGPT不可能用监督模型进行训练。相反，ChatGPT使用非监督预训练——这就是改变游戏规则的地方。

非监督预训练是指模型在没有特定输出与每个输入相关联的数据上进行训练的过程。相反，模型被训练以在没有任何任务的情况下学习输入数据的底层结构和模式。这个过程常用于无监督学习任务，如聚类、异常检测和降维。在语言建模中，非监督预训练可以训练模型理解自然语言的语法和语义，从而使模型能够在对话环境中生成连贯且有意义的文本。

此外：ChatGPT Plus真的值得20美元吗？当免费版提供了这么多高级功能时

正是在这里，ChatGPT看似无限的知识成为可能。因为开发者不需要知道输入产生的输出，他们只需不断向ChatGPT的预训练机制中添加越来越多的信息，这种机制被称为基于Transformer的语言建模。

此外：AI公司如何秘密从网络上收集训练数据（以及为什么这很重要）

也正是在这里，在将数据输入AI的过程中，现代聊天机器人制造商开始发现自己陷入麻烦。AI公司一直在未经许可的情况下使用其他公司的版权信息进行训练。事实上，一些出版商，如Ziff Davis（ZDNET的母公司）和纽约时报，正在起诉OpenAI侵犯版权。你可能已经看到ZDNET上的免责声明，上面写着：“披露：Ziff Davis，ZDNET的母公司，于2025年4月对OpenAI提起诉讼，指控其在训练和运营AI系统时侵犯了Ziff Davis的版权。”这种普遍的训练方法确实使聊天机器人更强大。但副作用是它们正在从撰写原始内容的公司和作者那里夺取流量。预计这一生成式AI的方面将在法庭上争论多年。

但本文是关于技术的，所以让我们继续讨论使生成式AI成为可能的关键技术……

Transformer架构

Transformer架构是一种用于处理自然语言数据的神经网络类型。神经网络通过层与层之间相互连接的节点来模拟人脑的工作方式。你可以把神经网络想象成一支冰球队。每个球员都有自己的角色，但他们会在特定位置的球员之间来回传递冰球，共同努力得分。

Transformer架构通过使用“自注意力”来权衡序列中不同词语的重要性，从而处理词语序列。自注意力类似于读者可能会回顾前面的句子或段落，以获取理解新词所需的上下文。Transformer会查看序列中的所有词语，以理解上下文和它们之间的关系。

此外：如何使用ChatGPT快速修复关键插件——无需修改一行代码

Transformer由多个层组成，每层包含多个子层。两个主要的子层是自注意力层和前馈层。自注意力层计算序列中每个词的重要性，而前馈层则对输入数据应用非线性变换。这些层帮助Transformer学习和理解序列中词语之间的关系。在训练过程中，Transformer会接收到输入数据，比如一个句子，并根据该输入做出预测。模型会根据其预测与实际输出的匹配程度进行更新。通过这个过程，Transformer学会了理解序列中词语的上下文和关系，使其成为自然语言处理任务的强大工具，如语言翻译和文本生成。

需要注意的一点是，这些模型有可能生成有害或有偏见的内容，因为它们可能会学到训练数据中存在的模式和偏见。实施这些模型的公司正在尝试提供“护栏”，但这些护栏本身也可能引发问题。这些担忧是因为不同的人有不同的观点。基于一种思想流派防止偏见的尝试可能被另一种思想流派认为是有偏见的。这种情况使得设计一个通用的聊天机器人变得困难，因为社会是复杂的。

此外：7个高级ChatGPT提示写作技巧你需要知道

让我们先讨论输入到ChatGPT中的数据，然后讨论ChatGPT和自然语言的用户交互阶段。ChatGPT的训练数据集用于训练ChatGPT的数据集非常庞大。ChatGPT基于一种称为大语言模型（LLM）的东西。让我们花点时间澄清聊天机器人与LLM的区别。聊天机器人本质上是一个带有用户界面的应用程序。它接收问题或提示，将这些提示提供给LLM，然后检索答案，对其进行格式化，并将其呈现给用户。基本上，聊天机器人是一个UI外壳。真正提供AI能力的是LLM。LLM有各种各样的名称和版本。目前，主要的ChatGPT LLM是GPT-4o。当ChatGPT在2023年初突然出现时，LLM是GPT-3。有些LLM，如OpenAI的o3，花费更多时间进行推理，而其他LLM则更适合与人类交流方式互动。随着时间的推移，LLM会变得更好，因此聊天机器人本身也会变得更加强大。

用于训练ChatGPT的数据集非常庞大。ChatGPT基于一种称为大语言模型（LLM）的东西。让我们花点时间澄清聊天机器人与LLM的区别。聊天机器人本质上是一个带有用户界面的应用程序。它接收问题或提示，将这些提示提供给LLM，然后检索答案，对其进行格式化，并将其呈现给用户。基本上，聊天机器人是一个UI外壳。真正提供AI能力的是LLM。GPT是一个涵盖三个领域的首字母缩写词：它是生成式的（G），意味着它生成结果；它是预训练的（P），意味着它基于它所吸收的所有数据；它使用Transformer架构（T），该架构通过加权文本输入来理解上下文。GPT-3是在一个名为WebText2的数据集上进行训练的，这是一个超过45TB的文本数据库。当你可以以不到300美元的价格购买一个16TB的硬盘时，45TB的语料库可能看起来并不那么大。但是文本占用的存储空间比图片或视频少得多。

此外：如何订阅ChatGPT Plus（以及7个你应该订阅的原因）

这种庞大的数据量使ChatGPT能够以前所未有的规模学习自然语言中单词和短语之间的模式和关系，这也是它能够对用户查询生成连贯且相关内容的回应的原因之一。虽然ChatGPT基于GPT架构，但它已经在多个数据集上进行了微调，并针对对话使用案例进行了优化。这个过程使它能够为通过聊天界面与技术互动的用户提供更加个性化和引人入胜的体验。

这种庞大的数据量使ChatGPT能够以前所未有的规模学习自然语言中单词和短语之间的模式和关系，这也是它能够对用户查询生成连贯且相关内容的回应的原因之一。例如，OpenAI（ChatGPT的开发者）发布了一个名为Persona-Chat的数据集，专门用于训练对话式AI模型，如ChatGPT。该数据集包含超过16万个对话，涉及两个参与者的对话，每个参与者都有一个独特的个性，描述他们的背景、兴趣和性格。这个过程使ChatGPT能够学习生成符合对话具体情境的个性化回应。

Cornell Movie Dialogs Corpus：一个包含电影剧本中角色之间对话的数据集。它包含超过200,000次对话，涉及超过10,000对电影角色，涵盖了多种主题和类型。

Ubuntu Dialogue Corpus：用户寻求技术支持与Ubuntu社区支持团队之间的多轮对话集合。它包含超过一百万条对话，使其成为研究对话系统的最大公开数据集之一。

DailyDialog：一个人与人之间在多个主题上的对话集合，从日常生活的对话到关于社会问题的讨论。数据集中的每条对话都有几轮，并带有情感、情绪和主题信息的标签。

除了这些数据集外，ChatGPT还使用了互联网上大量的非结构化数据，包括网站、书籍和其他文本资源。这使ChatGPT能够学习语言的结构和模式，从而可以针对特定应用（如对话管理或情感分析）进行微调。

ChatGPT是一个使用类似GPT系列方法训练的独特模型，但在架构和训练数据方面有一些差异。

此外：2025年最好的AI图像生成器：Gemini、ChatGPT、Midjourney等

总体而言，用于微调ChatGPT的训练数据通常是对话形式的，并且特别挑选了包含人类之间对话的数据，使ChatGPT能够学习如何在对话格式中生成自然且吸引人的回应。你可以这样思考ChatGPT的非监督训练：它被输入了大量的数据，然后被交给自己去发现模式并理解所有内容。这种机制使得新的生成式AI系统能够如此迅速地扩展。

总体而言，用于微调ChatGPT的训练数据通常是对话形式的，并且特别挑选了包含人类之间对话的数据，使ChatGPT能够学习如何在对话格式中生成自然且吸引人的回应。尽管预训练过程为ChatGPT的生成式AI做了大量的工作，但该技术还必须理解问题并从数据中构建答案。这部分由推理阶段完成，该阶段包括自然语言处理和对话管理。

总体而言，用于微调ChatGPT的训练数据通常是对话形式的，并且特别挑选了包含人类之间对话的数据，使ChatGPT能够学习如何在对话格式中生成自然且吸引人的回应。预训练中有人参与吗？尽管非监督预训练本身具有内在的可扩展性，但有证据表明在ChatGPT面向公众使用之前，可能有人类的帮助参与了准备过程。

预训练中有人参与吗？最大的揭示是在《时代》杂志的一篇文章中提到的，该文章讨论了在肯尼亚工作的“数据标注员”，他们每小时赚取1.32至2美元。根据《时代》的报道，这些工人的职责是扫描恐怖和色情的互联网内容，以标记用于ChatGPT训练的内容。

此外：你的下一份工作？管理一群AI代理

另一篇文章发表在Martechpost上，这是一份AI新闻通讯，指出大型语言模型是通过一种称为“基于人类反馈的强化学习”（RLHF）的过程进行训练的：“训练过程涉及使用监督学习对初始模型进行微调，人类培训师同时扮演用户和AI助手的角色。”

有关“训练”一词的含义有一些细微差别。根据ChatGPT自身所说，“OpenAI并没有使用基于人类反馈的强化学习来训练我。相反，我是通过结合无监督和监督学习技术（如语言建模、自动编码和序列预测）进行预训练的。我的训练涉及处理来自互联网的大量文本数据，这让我能够学习单词和短语之间的模式和关系。”

AI接着说道，“然而，一旦我完成了预训练，研究人员和开发人员可以使用基于人类反馈的强化学习来对我进行微调，以完成特定的任务或领域，如回答问题或生成文本。在这种情况下，人类可以以奖励或惩罚的形式提供反馈，这可以用于更新我的参数并提高我在未来类似任务上的表现。”

此外：如何使用ChatGPT和AI艺术工具快速启动我的Etsy业务

这个回答似乎与Marktechpost和《时代》的报告相符，即最初的预训练是非监督的，允许向系统中输入大量数据。但在构建与用户沟通的对话响应时（下面会有更多说明），响应引擎显然既训练了响应类型，也过滤掉了不当材料——而这种训练似乎是人为协助的。

自然语言处理

自然语言处理（NLP）专注于使计算机能够理解、解释和生成人类语言。随着数字数据的指数级增长和自然语言接口的日益普及，NLP已成为许多企业的关键技术。NLP技术可用于许多应用，包括情感分析、聊天机器人、语音识别和翻译。通过利用NLP，企业可以自动化任务、改善客户服务，并从客户反馈和社会媒体帖子中获得有价值的见解。

此外：如何写出更好的ChatGPT提示

实现NLP的一个主要挑战是处理人类语言的复杂性和模糊性。NLP算法需要在大量数据上进行训练，以识别模式并学习语言的细微差别。它们还需要不断改进和更新，以跟上语言使用和上下文的变化。这项技术通过将语言输入（如句子或段落）分解成较小的部分，并分析它们的意义和关系来生成见解或回应。NLP技术使用多种技术，包括统计建模、机器学习和深度学习，以识别模式并从大量数据中学习，以准确地解释和生成语言。

对话管理

你可能已经注意到，ChatGPT可以提出后续问题以澄清你的意图或更好地理解你的需求，并提供考虑整个对话历史的个性化回应。这种做法使ChatGPT能够与用户进行多轮对话，感觉自然且引人入胜。这个过程涉及使用算法和机器学习技术来理解对话的上下文并保持多轮交流。

此外：如何使用ChatGPT编写代码——以及我调试它生成内容的顶级技巧

对话管理是自然语言处理的重要组成部分，因为它使计算机程序能够以更像对话的方式与人们互动，而不是一系列独立的交互。这种方法可以帮助建立与用户的信任和参与度，并为用户和使用程序的组织带来更好的结果。当然，营销人员希望扩大信任的建立方式，但这也是一个可能令人害怕的领域，因为这是AI可能操纵使用者的一种方式。

看看运行ChatGPT的硬件内部

微软发布了一段视频，讨论了Azure如何用于创建运行ChatGPT所需的所有计算和存储的网络。这段视频非常有趣，因为它讨论了Azure以及AI在真实硬件中的架构。

常见问题解答

ChatGPT的生成式AI与传统聊天机器人有何不同？

传统的聊天机器人基于预定义的规则和决策树运行，对特定的用户输入做出预定义的回答。而ChatGPT则利用生成式AI，使其能够通过理解上下文和意图产生独特的回答，使互动更加动态和拟人化。

ChatGPT的生成式AI与传统聊天机器人有何不同？

显示更多

为什么非监督预训练被认为是对像ChatGPT这样的AI模型的变革？

非监督预训练使AI模型能够从大量未标记的数据中学习。这种方法帮助模型掌握语言的细微差别，而不受特定任务的限制，从而能够生成更多样化和上下文相关的回答。

显示更多

ChatGPT在理解和回应用户查询方面有什么限制吗？

是的。ChatGPT依赖于它被训练的数据，这意味着它可能并不总是拥有最新话题或小众主题的信息。此外，它的回答是基于数据中的模式生成的，因此有时可能会产生事实错误的答案或缺乏上下文。此外，它所训练的数据可能有误，甚至可能被故意误导。

显示更多

现在你知道了即使我们超过了3200个字，这仍然是对ChatGPT内部发生的一切的初步概述。尽管如此，也许现在你更了解为什么这项技术在过去几年中爆炸式增长。成功的关键在于数据本身不是“监督”的，AI可以利用它所接受的信息来理解它。

此外：ChatGPT Projects的6种新方式超级增强你的AI聊天 – 如何尝试它

你怎么看？你正在使用ChatGPT吗？关于它是如何工作的，你还有哪些疑问？在下面的评论中与我们分享你的观点。你可以在社交媒体上关注我的日常项目更新。务必订阅我的每周更新简报，并在Twitter/X上关注我@DavidGewirtz，在Facebook上关注Facebook.com/DavidGewirtz，在Instagram上关注Instagram.com/DavidGewirtz，在YouTube上关注YouTube.com/DavidGewirtzTV。

想要更多关于AI的故事吗？订阅创新，我们的每周新闻简报。

人工智能

2025年最好的编程AI（包括两个新的顶级选择——以及不要使用什么）

我测试了10个AI内容检测器——这些5个每次都正确识别AI文本

最好的AI图像生成器在它们曾经很糟糕的事情上变得越来越可怕

在找一个AI驱动的网站构建器？这是2025年最好的选择

在工作中使用AI？一项新研究表明你可能正在毁掉自己的声誉

2025年最好的编程AI（包括两个新的顶级选择——以及不要使用什么）

我测试了10个AI内容检测器——这些5个每次都正确识别AI文本

最好的AI图像生成器在它们曾经很糟糕的事情上变得越来越可怕

在找一个AI驱动的网站构建器？这是2025年最好的选择

在工作中使用AI？一项新研究表明你可能正在毁掉自己的声誉