DeepSeek 的成功表明了为什么动机是 AI 创新的关键

快速阅读: 据《VentureBeat 公司》最新报道，DeepSeek在LLM领域挑战OpenAI，以其创新的KV缓存优化和MoE机制降低硬件和能源成本。通过强化学习和优化技术，DeepSeek展示了技术进步的潜力，推动了行业的多样性和竞争力，对学术界和初创公司均有积极影响。

加入我们的每日和每周通讯，获取行业领先的AI最新动态和独家内容。了解更多，2025年1月对AI领域造成了巨大冲击。看似不可阻挡的OpenAI和强大的美国科技巨头被我们完全可以称之为大型语言模型（LLMs）领域黑马的公司震惊了。一家默默无闻的中国公司DeepSeek突然挑战了OpenAI。并不是说DeepSeek-R1比美国巨头的顶级模型更好；在基准测试中略逊一筹，但它突然让大家开始关注硬件和能源使用效率。鉴于最佳高端硬件的不可用性，似乎DeepSeek有动力在效率方面进行创新，这对较大的参与者来说是一个较小的关注点。OpenAI声称他们有证据表明DeepSeek可能使用了他们的模型进行训练，但我们没有确凿的证据支持这一点。因此，这是否属实或仅仅是OpenAI试图安抚投资者的话题尚有争议。然而，DeepSeek已经发表了他们的工作，并且人们已经验证结果至少在较小规模上是可重现的。

看似不可阻挡的OpenAI和强大的美国科技巨头被我们完全可以称之为大型语言模型（LLMs）领域黑马的公司震惊了。一家默默无闻的中国公司DeepSeek突然挑战了OpenAI。并不是说DeepSeek-R1比美国巨头的顶级模型更好；在基准测试中略逊一筹，但它突然让大家开始关注硬件和能源使用效率。但为什么DeepSeek能够以如此低的成本实现这一目标而美国公司却不能呢？简而言之，他们有更多的动机。

详细解释则需要一些技术背景。DeepSeek采用了KV缓存优化，一个重要的策略是优化了LLM中每个注意力层使用的Key-Value缓存，从而节省了GPU内存。LLMs由变压器块组成，每个块包含一个注意力层，后跟一个常规的前馈网络。前馈网络理论上可以建模任意关系，但在实践中很难总是确定数据中的模式。注意力层解决了这个问题。

模型通过令牌处理文本，但为了简单起见，我们将它们称为单词。在LLM中，每个单词都会被分配到一个高维向量（例如，一千维）。理论上，每个维度代表一个概念，比如热或冷、绿色、柔软、名词等。一个单词的向量表示包含了其在各维度上的意义和值。然而，我们的语言允许其他单词修改每个单词的意义。例如，苹果有一个意义。但是我们可以有一个绿色苹果作为修改版本。一个更极端的例子是，在iPhone上下文中与在草地上下文中的苹果不同。我们如何让系统基于另一个单词修改单词的向量意义呢？这就是注意力机制的功能所在。

注意力模型为每个单词分配另外两个向量：键和查询。查询代表可以被修改的单词意义的质量，而键代表它可以提供给其他单词的修改类型。例如，单词“绿色”可以提供关于颜色和绿色的信息。所以，“绿色”这个词的键在“绿色”维度上会有很高的值。另一方面，“苹果”可以是绿色的或不是绿色的，所以“苹果”的查询向量在这个“绿色”维度上也会有很高的值。如果取“绿色”的键与“苹果”的查询的点积，与“桌子”的键与“苹果”的查询的点积相比，这个点积应该相对较大。注意力层将“绿色”这个词的部分值加到了“苹果”这个词的值上。这样，“苹果”的值就被修改得稍微绿一些了。

然而，我们的语言允许其他单词修改每个单词的意义。例如，苹果有一个意义。但是我们可以有一个绿色苹果作为修改版本。一个更极端的例子是，在iPhone上下文中与在草地上下文中的苹果不同。我们如何让系统基于另一个单词修改单词的向量意义呢？这就是注意力机制的功能所在。当LLM生成文本时，它是一次一个词地进行的。当它生成一个词时，所有之前生成的词都成为它的上下文的一部分。然而，这些词的键和值已经被计算出来了。当另一个词被添加到上下文中时，它的值需要根据它的查询和之前所有词的键和值进行更新。这就是为什么所有这些值都存储在GPU内存中。这就是KV缓存。

DeepSeek确定了一个词的键和值是相关的。所以，绿色这个词的意义及其影响绿色的能力显然是非常密切相关的。因此，有可能将两者压缩为一个单一的（也许更小的）向量，并在处理时轻松解压缩。DeepSeek发现这确实影响了其在基准测试中的表现，但大幅减少了GPU内存占用。

DeepSeek采用了MoE机制。神经网络的本质在于，对于每个查询，整个网络都需要被评估。然而，并非所有的计算都有价值。世界知识存在于网络的权重或参数中。关于埃菲尔铁塔的知识不会用于回答南美部落的历史问题。知道苹果是一种水果在回答广义相对论的问题时是没有用的。然而，当网络被计算时，无论什么部分都需要处理。这在文本生成过程中带来了巨大的计算开销，而这些开销本应避免。这就是混合专家（MoE）思想的来源。在MoE模型中，神经网络被分成多个较小的网络，称为专家。请注意，主题领域的“专家”并没有明确定义；网络在训练期间会自行确定。然而，网络为每个查询分配一些相关分数，并只激活匹配分数较高的部分。这在计算上实现了显著的成本节约。需要注意的是，有些问题需要在多个领域拥有专业知识才能正确回答，这样的查询性能会下降。然而，由于这些领域是从数据中推断出来的，这样的问题数量被最小化了。

强化学习的重要性

LLM通过链式思维模型进行教学，模型经过微调以模仿思考后再给出答案。模型被要求口头表达其想法（在生成答案之前生成想法）。然后模型在想法和答案上都被评估，并通过强化学习进行训练（对与训练数据匹配正确的奖励，对不匹配的惩罚）。这需要昂贵的想法标记的训练数据。DeepSeek只要求系统在和标签之间生成想法，并在和标签之间生成答案。模型仅根据形式（标签的使用）和答案的匹配程度进行奖励或惩罚。这所需的训练数据要便宜得多。在RL早期阶段，模型尝试生成很少的想法，导致答案错误。最终，模型学会了生成既长又连贯的想法，这就是DeepSeek所说的“啊哈”时刻。从这一点开始，答案的质量有了很大的提高。

LLM通过链式思维模型进行教学，模型经过微调以模仿思考后再给出答案。模型被要求口头表达其想法（在生成答案之前生成想法）。然后模型在想法和答案上都被评估，并通过强化学习进行训练（对与训练数据匹配正确的奖励，对不匹配的惩罚）。DeepSeek还采用了多种额外的优化方法。然而，它们非常技术性，所以我在这里不会深入探讨。

关于DeepSeek和更大市场的最后思考

在任何技术研究中，我们首先需要看到什么是可能的，然后再提高效率。这是一个自然的进步过程。DeepSeek对LLM领域的贡献是惊人的。无论是否使用OpenAI的输出进行训练，学术贡献都不能忽视。它还可以改变初创公司的运作方式。但OpenAI或其他美国巨头也没有理由绝望。这就是研究工作的运作规律——一个小组从其他小组的研究中受益。DeepSeek无疑受益于谷歌、OpenAI和其他众多研究人员之前的研究。然而，认为OpenAI将永远主导LLM世界的观点现在变得非常不可能。无论多少监管游说或指责都无法保住他们的垄断地位。这项技术已经掌握在许多人手中并公开，使其进步无法阻止。虽然这对OpenAI的投资者来说可能有点头疼，但最终对我们大多数人来说是好事。尽管未来属于许多人，但我们永远会对像谷歌和OpenAI这样的早期贡献者心存感激。

(以上内容均由Ai生成)