DeepSeek 的成功表明了为什么动机是 AI 创新的关键
快速阅读: 据《VentureBeat 公司》最新报道,DeepSeek在LLM领域挑战OpenAI,以其创新的KV缓存优化和MoE机制降低硬件和能源成本。通过强化学习和优化技术,DeepSeek展示了技术进步的潜力,推动了行业的多样性和竞争力,对学术界和初创公司均有积极影响。
加入我们的每日和每周通讯,获取行业领先的AI最新动态和独家内容。了解更多,2025年1月对AI领域造成了巨大冲击。看似不可阻挡的OpenAI和强大的美国科技巨头被我们完全可以称之为大型语言模型(LLMs)领域黑马的公司震惊了。一家默默无闻的中国公司DeepSeek突然挑战了OpenAI。并不是说DeepSeek-R1比美国巨头的顶级模型更好;在基准测试中略逊一筹,但它突然让大家开始关注硬件和能源使用效率。鉴于最佳高端硬件的不可用性,似乎DeepSeek有动力在效率方面进行创新,这对较大的参与者来说是一个较小的关注点。OpenAI声称他们有证据表明DeepSeek可能使用了他们的模型进行训练,但我们没有确凿的证据支持这一点。因此,这是否属实或仅仅是OpenAI试图安抚投资者的话题尚有争议。然而,DeepSeek已经发表了他们的工作,并且人们已经验证结果至少在较小规模上是可重现的。
看似不可阻挡的OpenAI和强大的美国科技巨头被我们完全可以称之为大型语言模型(LLMs)领域黑马的公司震惊了。一家默默无闻的中国公司DeepSeek突然挑战了OpenAI。并不是说DeepSeek-R1比美国巨头的顶级模型更好;在基准测试中略逊一筹,但它突然让大家开始关注硬件和能源使用效率。但为什么DeepSeek能够以如此低的成本实现这一目标而美国公司却不能呢?简而言之,他们有更多的动机。
详细解释则需要一些技术背景。DeepSeek采用了KV缓存优化,一个重要的策略是优化了LLM中每个注意力层使用的Key-Value缓存,从而节省了GPU内存。LLMs由变压器块组成,每个块包含一个注意力层,后跟一个常规的前馈网络。前馈网络理论上可以建模任意关系,但在实践中很难总是确定数据中的模式。注意力层解决了这个问题。
模型通过令牌处理文本,但为了简单起见,我们将它们称为单词。在LLM中,每个单词都会被分配到一个高维向量(例如,一千维)。理论上,每个维度代表一个概念,比如热或冷、绿色、柔软、名词等。一个单词的向量表示包含了其在各维度上的意义和值。然而,我们的语言允许其他单词修改每个单词的意义。例如,苹果有一个意义。但是我们可以有一个绿色苹果作为修改版本。一个更极端的例子是,在iPhone上下文中与在草地上下文中的苹果不同。我们如何让系统基于另一个单词修改单词的向量意义呢?这就是注意力机制的功能所在。
注意力模型为每个单词分配另外两个向量:键和查询。查询代表可以被修改的单词意义的质量,而键代表它可以提供给其他单词的修改类型。例如,单词“绿色”可以提供关于颜色和绿色的信息。所以,“绿色”这个词的键在“绿色”维度上会有很高的值。另一方面,“苹果”可以是绿色的或不是绿色的,所以“苹果”的查询向量在这个“绿色”维度上也会有很高的值。如果取“绿色”的键与“苹果”的查询的点积,与“桌子”的键与“苹果”的查询的点积相比,这个点积应该相对较大。注意力层将“绿色”这个词的部分值加到了“苹果”这个词的值上。这样,“苹果”的值就被修改得稍微绿一些了。
然而,我们的语言允许其他单词修改每个单词的意义。例如,苹果有一个意义。但是我们可以有一个绿色苹果作为修改版本。一个更极端的例子是,在iPhone上下文中与在草地上下文中的苹果不同。我们如何让系统基于另一个单词修改单词的向量意义呢?这就是注意力机制的功能所在。当LLM生成文本时,它是一次一个词地进行的。当它生成一个词时,所有之前生成的词都成为它的上下文的一部分。然而,这些词的键和值已经被计算出来了。当另一个词被添加到上下文中时,它的值需要根据它的查询和之前所有词的键和值进行更新。这就是为什么所有这些值都存储在GPU内存中。这就是KV缓存。
DeepSeek确定了一个词的键和值是相关的。所以,绿色这个词的意义及其影响绿色的能力显然是非常密切相关的。因此,有可能将两者压缩为一个单一的(也许更小的)向量,并在处理时轻松解压缩。DeepSeek发现这确实影响了其在基准测试中的表现,但大幅减少了GPU内存占用。
DeepSeek采用了MoE机制。神经网络的本质在于,对于每个查询,整个网络都需要被评估。然而,并非所有的计算都有价值。世界知识存在于网络的权重或参数中。关于埃菲尔铁塔的知识不会用于回答南美部落的历史问题。知道苹果是一种水果在回答广义相对论的问题时是没有用的。然而,当网络被计算时,无论什么部分都需要处理。这在文本生成过程中带来了巨大的计算开销,而这些开销本应避免。这就是混合专家(MoE)思想的来源。在MoE模型中,神经网络被分成多个较小的网络,称为专家。请注意,主题领域的“专家”并没有明确定义;网络在训练期间会自行确定。然而,网络为每个查询分配一些相关分数,并只激活匹配分数较高的部分。这在计算上实现了显著的成本节约。需要注意的是,有些问题需要在多个领域拥有专业知识才能正确回答,这样的查询性能会下降。然而,由于这些领域是从数据中推断出来的,这样的问题数量被最小化了。
强化学习的重要性
LLM通过链式思维模型进行教学,模型经过微调以模仿思考后再给出答案。模型被要求口头表达其想法(在生成答案之前生成想法)。然后模型在想法和答案上都被评估,并通过强化学习进行训练(对与训练数据匹配正确的奖励,对不匹配的惩罚)。这需要昂贵的想法标记的训练数据。DeepSeek只要求系统在
LLM通过链式思维模型进行教学,模型经过微调以模仿思考后再给出答案。模型被要求口头表达其想法(在生成答案之前生成想法)。然后模型在想法和答案上都被评估,并通过强化学习进行训练(对与训练数据匹配正确的奖励,对不匹配的惩罚)。DeepSeek还采用了多种额外的优化方法。然而,它们非常技术性,所以我在这里不会深入探讨。
关于DeepSeek和更大市场的最后思考
在任何技术研究中,我们首先需要看到什么是可能的,然后再提高效率。这是一个自然的进步过程。DeepSeek对LLM领域的贡献是惊人的。无论是否使用OpenAI的输出进行训练,学术贡献都不能忽视。它还可以改变初创公司的运作方式。但OpenAI或其他美国巨头也没有理由绝望。这就是研究工作的运作规律——一个小组从其他小组的研究中受益。DeepSeek无疑受益于谷歌、OpenAI和其他众多研究人员之前的研究。然而,认为OpenAI将永远主导LLM世界的观点现在变得非常不可能。无论多少监管游说或指责都无法保住他们的垄断地位。这项技术已经掌握在许多人手中并公开,使其进步无法阻止。虽然这对OpenAI的投资者来说可能有点头疼,但最终对我们大多数人来说是好事。尽管未来属于许多人,但我们永远会对像谷歌和OpenAI这样的早期贡献者心存感激。
在任何技术研究中,我们首先需要看到什么是可能的,然后再提高效率。这是一个自然的进步过程。DeepSeek对LLM领域的贡献是惊人的。无论是否使用OpenAI的输出进行训练,学术贡献都不能忽视。它还可以改变初创公司的运作方式。但OpenAI或其他美国巨头也没有理由绝望。这就是研究工作的运作规律——一个小组从其他小组的研究中受益。DeepSeek无疑受益于谷歌、OpenAI和其他众多研究人员之前的研究。
(以上内容均由Ai生成)