以下是 AI 如何从基本语法规则演变为今天的生成式 AI 流利度

快速阅读: 《福布斯》消息，本文介绍了传统自然语言处理（NLP）和现代生成式AI的差异。传统NLP基于语法规则，易于调试但灵活性有限；现代NLP通过数据模式匹配实现流畅性，但不够可预测。文章建议结合两者优点，采用混合方法以实现最佳效果。投资知识总会有良好回报。

生成式人工智能

Getty图片较少。

在今天的专栏中，我揭示了现代生成式人工智能和大型语言模型（LLMs）如何通过统计模式匹配流畅地处理自然语言，与旧式的AI系统（如Siri和Alexa的主要功能相比）。我提出这一点是因为我经常被问到的一个常见问题是，为什么之前的AI在与人类互动时做得如此敷衍且令人恼火。确实，与早期的自然语言处理（NLP）系统对话时，明显感到生硬且令人沮丧，而当代生成式AI在进行对话时似乎几乎具有人性化的特点。

是什么样的AI变革使得NLP从粗糙变得流畅？

让我们来探讨一下这个问题。

对这一创新性AI突破的分析是我关于AI最新进展的福布斯专栏报道的一部分，包括识别和解释各种有影响力的AI复杂性（详见链接）。

两种主要的NLP方法

自然语言处理的构建主要有两种方法：

(1) 传统NLP：基于规则的方法。

AI开发者设置的AI利用语法规则，以便AI能够通过计算分析句子，根据常规的自然语言规则找出句子的句法和语义特征。

(2) 现代NLP：数据模式的方法。

AI开发者通过在大量人类书写的句子上进行数据训练来设置生成式AI和LLMs，然后通过统计和数学方法识别出人类写作背后的计算模式，使AI能够模仿或重复自然语言。

对这两种方法进行一些明智的剖析可能会有所启发。

传统NLP方法

传统的NLP方法包括根据你在小学学到的基本语法规则来解析句子。我确信你对这些规则记忆犹新。你需要检查一个句子以确定主语在哪里，动词在哪里，名词在哪里等。

一步一步地，你识别出句子结构。

这最终使你能解读句子的意义。你的努力涉及对句子的句法或句法元素进行分析。此外，你还进行语义分析，试图理解特定表述中词语组合所传达的潜在信息（技术上，这包括使用词汇表、本体论和其他语言学理论和工具）。

一步一步地，你识别出句子结构。

这通常被称为基于规则的或符号方法来解释句子。

现代NLP方法

现代的NLP方法包括生成式AI和LLMs利用大规模的人类写作模式匹配，通常是扫描互联网上的内容。

AI开发者通过统计可以确定句子的一般构成方式。有些词我们用得比其他词多。我们在句子的某些部分使用单词，并遵循可检测的模式继续使用其他单词。如果这种模式匹配是在足够大的规模上进行的，这些模式提供了一种相对可靠的计算方法来模仿人类的写作方式。

LLM中的一个特殊内部数据结构捕捉了单词之间倾向于关联的数学映射（这个数据结构被称为人工神经网络或ANN；详见我的解释链接）。基于这种复杂的计算模式匹配过程，你可以输入生成式AI的句子可以看似响应为一般符合人类可能对你的查询或问题的回答的回应句子。

这通常被称为数据模式化或次符号方法。

两种方法的比较

快速对比将突出两种NLP方法的相似点和差异点。

首先，在基于规则的方法中，一个巧妙之处在于语法规则是容易让人理解的。AI开发者可以用这些规则来编程AI。使用这些规则，AI逐个分解句子。这就像老师让你拆解一个句子并指出句子的各个成分一样（请注意，我并不是暗示AI和人脑是平等的，这一点需要澄清，它们不是）。

与语法规则的角度不同，生成式AI LLM方法只是将文本和单词形式的数据与其他类似数据关联起来。不需要具体的规则或使用规则。同样，AI开发者不需要向生成式AI提供自然语言的规则。

相反，AI开发者依靠大规模的模式匹配来自动发现人类组成句子的模式。因此，一个关键方面涉及AI开发者获取足够数量的写作内容，使其能够充分模式化。数据量不足可能无法找到有用的模式。

在基于规则的方法中，不需要像注入大量写作样本那样。你只需要足够的样本来测试解析规则是否按预期工作。

模式匹配方法的一个缺点是，数学和计算模式往往非常复杂，没有一种简单的方式来确定生成式AI是如何得出生成的响应的。当然，你可以追踪这个数字变成了那个数字，那个数字变成了另一个数字，但在AI中没有明显的语法规则可供参考。在这种意义上，基于规则的方法更容易调试并看到AI在幕后做了什么。

更多内容

佛罗里达特别选举：共和党赢得盖茨和沃尔茨的席位

雷克斯·海乌尔曼现在在哪里？长岛连环杀手审判的最新情况

威斯康星州最高法院选举：苏珊·克劳福德击败埃隆·马斯克支持的布拉德·施密特

基于规则的方法被认为是更可预测或确定性的。模式匹配方法不太可预测，据说是非确定性的，因为它使用统计方法，有时可能会偏离轨道（这导致所谓的AI幻觉，我在链接中详细讨论了这一点，当AI疯狂地发出看似正确的但未基于事实或真相的句子时）。

胜者为王

那么，在一对一的较量中，哪种方法是赢家？

这在一定程度上取决于你用作获胜标准的内容。

如果你的目标是流利度，数据模式方法领先于游戏。但如果你想拥有精确性和高预测性，你可能会选择坚持基于规则的NLP。这就是为什么传统的Siri和Alexa没有一夜之间切换到生成式AI作为底层NLP的部分原因。供应商的担忧是，如果他们做出改变并且他们的AI开始做一些奇怪的事情，人们会非常生气（这是完全合理的）。保持传统的NLP处于主导地位更有意义，确保其可靠性，同时谨慎地逐步迈向现代时代的NLP。

对于NLP差异的深入分析，请参阅我的报道链接。

传统NLP的实际应用示例

我将举一个简短的例子，说明两种方法分别如何处理一个句子。我将使用的句子是：“猫在藏在沙发下之前追逐了老鼠。”

仔细观察这个句子。戴上你的语法分析帽。你还记得足够的小学英语课来解析这个句子吗？

我相信你很快就能通过分析句子中的每个单词得出这些解析结果：

“The” → 冠词。

“cat” → 名词。

“chased” → 动词（过去式）。

“the” → 冠词。

“mouse” → 名词。

“before” → 从属连词。

“hiding” → 动词。

“under” → 介词。

“the” → 冠词。

“couch” → 名词。

“.” → 标点符号。

句子结构可以这样表示：

主语：[The cat]

谓语：[chased] 宾语：[the mouse]

从句：[before hiding under the couch]。

语义解释大致如下：涉及两个主体——一只猫和一只老鼠。猫通常追逐老鼠，这并无特别之处。藏身于物体之下是一种常见的空间关系，这种情况也显得较为寻常或符合预期。我们只能大致如此理解，至于更深层次的意义，例如情感基调，由于未被告知猫是在玩耍还是在捕猎，因此难以判断。

生成式AI的工作示例

现在让我们让用户将同一句话输入到一个当代生成式AI应用中。

这句话依然是：“The cat chased the mouse before hiding under the couch.”（那只猫在藏身沙发之前追逐了老鼠。）

第一步是AI将词语转化为数字。这些数字被称为标记，而这一转化过程称为标记化。有时，单词会被拆分为子部分，且可能使用多个标记来表示某个给定单词。有关标记化如何运作的详细步骤，请参阅我的讨论链接。

以下为将单词转换为其数值标记值的示例：

“the”: 464

“cat”: 9226

“chased”: 3372

“the”: 262

“mouse”: 19530

“before”: 960

“hiding”: 23478

“under”: 818

“the”: 262

“couch”: 10550

“.”: 13

这些数字对我们而言并无特定含义。它们仅仅是AI内部的数字，用于基于初始整体数据训练及数学与计算模式匹配，统计关联这些标记与其他标记。

标记被映射到AI的内部结构中。这被称为用标记在高维向量空间中操作，以展示它们与其他标记的关联性。

例如，代表“cat”的标记9226必然与代表“mouse”的标记19530紧密统计关联，这合乎情理，因为若查看网络上大量句子，你会发现“cat”和“mouse”这两个词经常出现在同一个句子或非常接近的句子中。同样，代表“chased”的标记3372会与代表“cat”的标记9226和代表“mouse”的标记19530紧密关联。

完成检查与查找后，生成式AI被设计为响应用户输入的提示。因此，在映射输入的句子后，生成式AI会组装标记以响应提示。然后将这些标记转换回单词。

生成的回复可能是这样的：“这句话描述了一只猫追逐一只老鼠，然后在沙发下面寻求庇护，可能是在追逐结束后。”请注意，这模仿了人类对此句可能作出的回应。再次强调，这是基于对人类写作的模式匹配。

最佳两全其美方法

正如你或许已察觉，由于依赖预设语法规则，基于规则的自然语言处理（NLP）方法略显僵化。AI开发者可能会无意中遗漏某些必要语法规则，或未能明确指定所有规则。悲伤脸。

数据模式化的子符号方法通常更加流畅、灵活且上下文感知。开心脸。然而，如前所述，它不太可预测，甚至可能产生虚构内容。唉。

似乎无论怎么做都会陷入困境。

目前，毫无疑问，数据模式化方法正在逐渐取代传统的NLP方法。人们渴望流畅性。另一方面，若在生死攸关的环境中提供NLP，例如医生用于医疗护理，你可能会倾向于选择可预测性而非流畅性。

我有个“啊哈！”时刻要告诉你。请勿陷入许多人易犯的误区，即认为我们应该将基于规则的方法抛弃。那将是错误之举。在需要高度可预测性的场合下，基于规则的方法颇为实用。若数据模式化方法偏离正轨，它可能会导致问题。

因此，有些人提倡一种混合方法（详见我在神经符号混合方法方面的深入讨论链接）。幸运的是，你可以结合基于规则的NLP与数据模式化NLP。若成功实施，则可兼得二者之长。需注意，若执行不当，你肯定会得到两者最差的一面。这是一种双刃剑。

恭喜你学习了传统NLP与现代NLP的区别。你现在确实有所了解。干得好。

正如本杰明·富兰克林所言：“对知识的投资总是能得到最好的回报。”

(以上内容均由Ai生成)