生成式 AI 被新发布的文本生成扩散 LLM 所撼动

快速阅读: 据《福布斯》称，扩散型语言模型（Diffusion LLMs）是一种创新方法，可能颠覆传统的自回归型生成式AI。它们通过添加和去除噪声来生成文本，相比自回归模型，扩散模型能更快速、并行地处理响应，提高效率和连贯性。然而，扩散模型也面临解释性差和非确定性高等挑战。尽管如此，扩散模型仍为AI发展提供了新思路。

扩散型语言模型（扩散LLMs）是一种令人兴奋的创新，可能会颠覆传统的生成式AI，并促使AI开发者重新考虑其核心方法。盖蒂图片社在今天的专栏中，我探讨了一种替代生成式AI和大型语言模型（LLMs）的方法似乎正在受到关注，并可能为传统方法带来一些独特的优势。简而言之，通常设计生成式AI的方法是所谓的自回归型LLMs，而有前景的新途径被称为扩散型LLMs（dLLMs）。确实，dLLMs很可能成为赢家。我将与您分享当前的生成式AI是如何工作的，然后介绍扩散方法。我们还不确定扩散是否会彻底取代自回归，但有很大可能扩散确实会引发重大变化。让我们来讨论这个话题。这项对人工智能创新突破的分析是我关于最新AI进展的福布斯专栏报道的一部分，包括识别和解释各种重要的人工智能复杂性（详见链接）。

### 扩散在文本上的应用

到目前为止，我提到的人工智能扩散涉及首先对人工智能进行数据训练，以去除静态或噪声，直到获得所需的图像。一旦我们完成了这一点，我们可以使用人工智能通过提供一个充满噪声的帧来生成新的图像，然后人工智能将去除噪声直到获得所需的图像。怎么做呢？想象一下，我输入一个提示，要求人工智能告诉我关于亚伯拉罕·林肯的事。传统的生成式人工智能会通过逐字组装单词来生成响应。选择的单词是基于在人工智能初始数据训练期间之前扫描有关亚伯拉罕·林肯生平的文章、故事等内容。这些故事中的模式被存储在人工智能中。人工智能利用这些模式来生成关于诚实的亚伯的便捷回复。这就是传统自回归方法的工作方式。

### 扩散型语言模型的工作方式

以下是扩散型语言模型的工作方式。就像上面一样，我们将对人工智能进行数据训练，包括有关亚伯拉罕·林肯生平的文章、故事等内容。有一个转折点。我们不仅扫描这些内容，还将内容添加了噪声。如果你用肉眼看到它，文本看起来相当混乱。字母表中的许多字母被胡乱插入，单词看起来也很混乱。扩散处理这个嘈杂的版本并试图去除噪声，恢复到原始版本。我相信这看起来很熟悉——这和我们处理猫图像时几乎是一样的。随后，当有人要求扩散型语言模型分享一些关于亚伯拉罕·林肯生平的事情时，我们会向人工智能提供一堆看似混乱的文本。这对人类来说看起来像是纯粹的胡言乱语。扩散型语言模型去除了噪声，并将一堆混乱的文本转换成关于亚伯拉罕·林肯的合理叙述。很好。

### 举例说明

让我提供一个简短的例子，可能有助于巩固两种方法，即比较传统的自回归方法与扩散型语言模型和生成式人工智能的方法。我会提出一个问题，这是我一直以来最喜欢的问题之一，因为这是我的孩子们在我非常年轻的时候经常问我的问题。问题是：“为什么天空是蓝色的？”是的，这是一个经典的提问，我想大多数父母最终都会从他们的好奇心强的小孩那里得到这个问题。这是一个美丽的问题。无论生成式人工智能是自回归还是扩散，提示和响应可能是这样的：

我输入的提示：“为什么天空是蓝色的？”
生成式人工智能的回答：“天空是蓝色的，因为阳光散射空气分子，蓝光散射最多。”

我想揭示人工智能的内部机制，让你了解答案是如何生成的。为了简洁起见，我会简化机制。你们当中那些对简化感到不满的喷子，可以阅读我在之前的专栏中所覆盖的细节，如链接在这里和链接在这里，谢谢。

#### 技术上，扩散方法涉及一种潜在变量模型，该模型使用固定马尔可夫链遍历考虑的潜在空间（参见我的讨论链接在这里）。如果生成式人工智能基于自回归方法，它会将提示转换为一系列表示“为什么”、“是”、“天空”、“蓝色”的令牌。这些令牌会被输入到自回归机制中。基于先前扫描内容的模式匹配，人工智能会逐个令牌地组装响应，然后将这些令牌转换为显示的单词。生成的令牌或单词可能是这样的：“天空”，“是”，“蓝色”，“因为”，“阳光”，“散射”，“空气”，“分子”，“和”，“蓝”，“光”，“散射”，“最”。

你可以认为这是人工智能通过一次一笔的方式在空白画布上绘制回复。如果生成式人工智能基于自回归方法，它会将提示转换为一系列表示“为什么”、“是”、“天空”、“蓝色”的令牌。这些令牌会被输入到自回归机制中。基于先前扫描内容的模式匹配，人工智能会逐个令牌地组装响应，然后将这些令牌转换为显示的单词。

#### 扩散处理示例

接下来，我们考虑扩散型语言模型如何处理这个查询。假设我们已经完成了扩散型语言模型的数据训练。在各个阶段，数据训练包括有关天空为何是蓝色的各种内容。这些内容被添加了噪声，扩散算法试图将其恢复为清晰的文本。识别出了如何做到这一点的模式。切换到使用这种扩散型语言模型。我们得到了一个询问天空为何是蓝色的提示。这个提示被用作种子来生成一堆混乱的文本。对人眼来说，这些文本看起来是不可理解的。扩散型语言模型会将这些看似无意义的文本去除噪声，直到生成最终结果。这可能会是这样的过程：

初始种子噪声文本：“skbl isz blu soshie rdackis flousy bof nofair soleish pur sang otto movei angok dorf sulu blsk”
第一次传递：“Sky is blue soshie rdackis light flousy air molecules pur and blue light movei angok the most.”
第二次传递：“Sky is blue because rdackis light scatters off air molecules pur and blue light scatters angok the most.”
最终结果：“天空是蓝色的，因为阳光散射空气分子，蓝光散射最多。”

你可以看到，种子噪声文本看起来不像答案。第一次传递将一些混乱的文本转换成了更可用的东西。第二次传递更进一步。最终传递让我们得到了最终结果。扩散型语言模型去除了噪声，直到生成最终答案。扩散可以很快完成。

### 扩散模型的优势

扩散模型以这种方式处理事情（称为一次性完成）相当简单。处理过程可以并行进行，无需逐字处理。这是扩散模型相比自回归模型的一大优势。自回归模型实现并行化要困难得多。通常情况下，自回归模型是一次生成一个词。我并不是说它不能被加速，而是说这与常规做法不符。

扩散模型的优势是显著的。生成的响应可以轻松地并行处理，因此会非常迅速。对用户的响应时间可能会更快。这几乎就像是你的回复神奇地一下子出现在你面前，而不是逐字逐句地处理。扩散模型的支持者还认为，扩散模型在处理大量文本时的连贯性优于自回归模型。这就是这种说法的依据。你可能知道，自回归模型在处理大量文本中的长距离依赖关系方面一直存在问题。幸运的是，基于自回归的生成式人工智能最近的进步使得能够处理越来越大的文本量，因此这个问题逐渐变得不那么严重了（详见我的分析链接）。无论如何，扩散模型似乎能轻松应对这个问题（不过研究仍处于初步阶段，因此不要过于乐观）。

扩散模型的支持者还认为，扩散模型在处理大量文本时的连贯性优于自回归模型。还有一些人认为，扩散模型最终会比基于自回归的生成式人工智能更具“创造性”。请注意，这只是推测。其逻辑是这样的：使用自回归模型时，一旦生成了一个词，AI通常会忠于这个选择的词，并不会轻易回溯并替换它（在其他条件相同的情况下）。你可以将其想象成一条单行道。你只能向前走，不能回头。理论上，扩散模型可以重新编辑正在生成的响应。这是一个简单的可能性。你看，我已经提到过扩散模型可能是通过一系列步骤进行的。在我的例子中，也许AI选择了“大气层”这个词，然后在下一个步骤中将其改为“对流层”。支持者会认为，通过允许这种多步骤修改，可以调整扩散模型使其更具有创造性。我们需要拭目以待。

### 关于扩散模型是否成本更低，目前正展开激烈的辩论，扩散模型的支持者认为这将是可能的。这是一个复杂的结果。初始数据训练的成本可能高于相应的自回归方法。节省成本的潜力在于运行时或所谓的思考时间，即AI生成响应时。如果底层硬件支持并行处理，生成过程可能会更快且成本更低。由于在确定任何类型的生成式AI的成本时会有许多相互冲突和复杂的变量，因此成本难以确定。最近的一个大新闻是关于一家名为DeepSeek的供应商的常规自回归生成式AI R1声称大幅降低了生成特定AI的成本，尽管并非所有人都相信这些成本声明（详见我的报道链接）。

### 扩散模型的缺点

让我们考虑另一面。天空并不总是蓝色的，我们应该认识到暴风雨或阴天的可能性。换句话说，扩散模型并不是万灵药。不要让新兴的兴奋冲昏头脑。一方面，拥有生成式AI的替代方案绝对令人耳目一新。我欢迎这一变化。如果我们想在AI领域取得实质性进展，就需要跳出传统思维模式（我对这一点的评论详见链接）。但这并不意味着最好的东西已经奇迹般地出现了。关于扩散模型的担忧包括这些模型似乎比自回归模型更难解释。如果你想要生成与响应相关的解释或推理，目前它不如传统的生成式AI受欢迎。研究正在寻求改善这一方面。

另一个问题是扩散模型是非确定性的，就像自回归模型一样，但似乎表现出更高的非确定性。这在一定程度上有利于创造力。然而，在控制AI和确定其可预测性方面，这似乎是负面的。关于扩散模型的担忧包括这些模型似乎比自回归模型更难解释。如果你想要生成与响应相关的解释或推理，目前它不如传统的生成式AI受欢迎。研究正在寻求改善这一方面。

还有更多讨论：这种方法是否会减少、保持不变还是增加AI幻觉？现有的驱动向自回归文本的LLM架构是否需要彻底改造或全新设计以最好地适应扩散模型？我们已经知道，使用扩散进行图像和视频生成时，存在潜在的模式崩溃问题。AI有时会产生重复的输出。这在基于文本的扩散模型生成中会发生吗？

(以上内容均由Ai生成)