DeepSeek 的成功表明了为什么动机是 AI 创新的关键

发布时间:2025年4月27日    来源:szf
DeepSeek 的成功表明了为什么动机是 AI 创新的关键

快速阅读: 据《VentureBeat 公司》最新报道,DeepSeek在LLM领域挑战OpenAI,以其创新的KV缓存优化和MoE机制降低硬件和能源成本。通过强化学习和优化技术,DeepSeek展示了技术进步的潜力,推动了行业的多样性和竞争力,对学术界和初创公司均有积极影响。

加入我们的每日和每周通讯,获取行业领先的AI最新动态和独家内容。了解更多,2025年1月对AI领域造成了巨大冲击。看似不可阻挡的OpenAI和强大的美国科技巨头被我们完全可以称之为大型语言模型(LLMs)领域黑马的公司震惊了。一家默默无闻的中国公司DeepSeek突然挑战了OpenAI。并不是说DeepSeek-R1比美国巨头的顶级模型更好;在基准测试中略逊一筹,但它突然让大家开始关注硬件和能源使用效率。鉴于最佳高端硬件的不可用性,似乎DeepSeek有动力在效率方面进行创新,这对较大的参与者来说是一个较小的关注点。OpenAI声称他们有证据表明DeepSeek可能使用了他们的模型进行训练,但我们没有确凿的证据支持这一点。因此,这是否属实或仅仅是OpenAI试图安抚投资者的话题尚有争议。然而,DeepSeek已经发表了他们的工作,并且人们已经验证结果至少在较小规模上是可重现的。

看似不可阻挡的OpenAI和强大的美国科技巨头被我们完全可以称之为大型语言模型(LLMs)领域黑马的公司震惊了。一家默默无闻的中国公司DeepSeek突然挑战了OpenAI。并不是说DeepSeek-R1比美国巨头的顶级模型更好;在基准测试中略逊一筹,但它突然让大家开始关注硬件和能源使用效率。但为什么DeepSeek能够以如此低的成本实现这一目标而美国公司却不能呢?简而言之,他们有更多的动机。

详细解释则需要一些技术背景。DeepSeek采用了KV缓存优化,一个重要的策略是优化了LLM中每个注意力层使用的Key-Value缓存,从而节省了GPU内存。LLMs由变压器块组成,每个块包含一个注意力层,后跟一个常规的前馈网络。前馈网络理论上可以建模任意关系,但在实践中很难总是确定数据中的模式。注意力层解决了这个问题。

模型通过令牌处理文本,但为了简单起见,我们将它们称为单词。在LLM中,每个单词都会被分配到一个高维向量(例如,一千维)。理论上,每个维度代表一个概念,比如热或冷、绿色、柔软、名词等。一个单词的向量表示包含了其在各维度上的意义和值。然而,我们的语言允许其他单词修改每个单词的意义。例如,苹果有一个意义。但是我们可以有一个绿色苹果作为修改版本。一个更极端的例子是,在iPhone上下文中与在草地上下文中的苹果不同。我们如何让系统基于另一个单词修改单词的向量意义呢?这就是注意力机制的功能所在。

注意力模型为每个单词分配另外两个向量:键和查询。查询代表可以被修改的单词意义的质量,而键代表它可以提供给其他单词的修改类型。例如,单词“绿色”可以提供关于颜色和绿色的信息。所以,“绿色”这个词的键在“绿色”维度上会有很高的值。另一方面,“苹果”可以是绿色的或不是绿色的,所以“苹果”的查询向量在这个“绿色”维度上也会有很高的值。如果取“绿色”的键与“苹果”的查询的点积,与“桌子”的键与“苹果”的查询的点积相比,这个点积应该相对较大。注意力层将“绿色”这个词的部分值加到了“苹果”这个词的值上。这样,“苹果”的值就被修改得稍微绿一些了。

然而,我们的语言允许其他单词修改每个单词的意义。例如,苹果有一个意义。但是我们可以有一个绿色苹果作为修改版本。一个更极端的例子是,在iPhone上下文中与在草地上下文中的苹果不同。我们如何让系统基于另一个单词修改单词的向量意义呢?这就是注意力机制的功能所在。当LLM生成文本时,它是一次一个词地进行的。当它生成一个词时,所有之前生成的词都成为它的上下文的一部分。然而,这些词的键和值已经被计算出来了。当另一个词被添加到上下文中时,它的值需要根据它的查询和之前所有词的键和值进行更新。这就是为什么所有这些值都存储在GPU内存中。这就是KV缓存。

DeepSeek确定了一个词的键和值是相关的。所以,绿色这个词的意义及其影响绿色的能力显然是非常密切相关的。因此,有可能将两者压缩为一个单一的(也许更小的)向量,并在处理时轻松解压缩。DeepSeek发现这确实影响了其在基准测试中的表现,但大幅减少了GPU内存占用。

DeepSeek采用了MoE机制。神经网络的本质在于,对于每个查询,整个网络都需要被评估。然而,并非所有的计算都有价值。世界知识存在于网络的权重或参数中。关于埃菲尔铁塔的知识不会用于回答南美部落的历史问题。知道苹果是一种水果在回答广义相对论的问题时是没有用的。然而,当网络被计算时,无论什么部分都需要处理。这在文本生成过程中带来了巨大的计算开销,而这些开销本应避免。这就是混合专家(MoE)思想的来源。在MoE模型中,神经网络被分成多个较小的网络,称为专家。请注意,主题领域的“专家”并没有明确定义;网络在训练期间会自行确定。然而,网络为每个查询分配一些相关分数,并只激活匹配分数较高的部分。这在计算上实现了显著的成本节约。需要注意的是,有些问题需要在多个领域拥有专业知识才能正确回答,这样的查询性能会下降。然而,由于这些领域是从数据中推断出来的,这样的问题数量被最小化了。

强化学习的重要性

LLM通过链式思维模型进行教学,模型经过微调以模仿思考后再给出答案。模型被要求口头表达其想法(在生成答案之前生成想法)。然后模型在想法和答案上都被评估,并通过强化学习进行训练(对与训练数据匹配正确的奖励,对不匹配的惩罚)。这需要昂贵的想法标记的训练数据。DeepSeek只要求系统在标签之间生成想法,并在标签之间生成答案。模型仅根据形式(标签的使用)和答案的匹配程度进行奖励或惩罚。这所需的训练数据要便宜得多。在RL早期阶段,模型尝试生成很少的想法,导致答案错误。最终,模型学会了生成既长又连贯的想法,这就是DeepSeek所说的“啊哈”时刻。从这一点开始,答案的质量有了很大的提高。

LLM通过链式思维模型进行教学,模型经过微调以模仿思考后再给出答案。模型被要求口头表达其想法(在生成答案之前生成想法)。然后模型在想法和答案上都被评估,并通过强化学习进行训练(对与训练数据匹配正确的奖励,对不匹配的惩罚)。DeepSeek还采用了多种额外的优化方法。然而,它们非常技术性,所以我在这里不会深入探讨。

关于DeepSeek和更大市场的最后思考

在任何技术研究中,我们首先需要看到什么是可能的,然后再提高效率。这是一个自然的进步过程。DeepSeek对LLM领域的贡献是惊人的。无论是否使用OpenAI的输出进行训练,学术贡献都不能忽视。它还可以改变初创公司的运作方式。但OpenAI或其他美国巨头也没有理由绝望。这就是研究工作的运作规律——一个小组从其他小组的研究中受益。DeepSeek无疑受益于谷歌、OpenAI和其他众多研究人员之前的研究。然而,认为OpenAI将永远主导LLM世界的观点现在变得非常不可能。无论多少监管游说或指责都无法保住他们的垄断地位。这项技术已经掌握在许多人手中并公开,使其进步无法阻止。虽然这对OpenAI的投资者来说可能有点头疼,但最终对我们大多数人来说是好事。尽管未来属于许多人,但我们永远会对像谷歌和OpenAI这样的早期贡献者心存感激。

在任何技术研究中,我们首先需要看到什么是可能的,然后再提高效率。这是一个自然的进步过程。DeepSeek对LLM领域的贡献是惊人的。无论是否使用OpenAI的输出进行训练,学术贡献都不能忽视。它还可以改变初创公司的运作方式。但OpenAI或其他美国巨头也没有理由绝望。这就是研究工作的运作规律——一个小组从其他小组的研究中受益。DeepSeek无疑受益于谷歌、OpenAI和其他众多研究人员之前的研究。

(以上内容均由Ai生成)

你可能还想读

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

快速阅读: 国星宇航与北京邮电大学共建语义卫星联合实验室,聚焦语义卫星星座建设等关键技术,加速太空AI技术转化与应用落地,推动6G通信发展。 IT之家 10 月 22 日消息, 国星宇航今日宣布,将携手北京邮电大学共建语义卫星联合实验室 。 […]

发布时间:2025年10月23日
贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

快速阅读: 贝索斯提出在太空中建立数据中心的构想,利用不间断太阳能解决能源问题,但面临高昂的发射和维护成本及技术挑战。 贝索斯设想在地球大气层外利用持续阳光建立轨道数据中心。该计划承诺提供无限能源,不受云层和天气干扰的影响。然而,发射和维护 […]

发布时间:2025年10月11日
克瑞托斯庆祝Oriole火箭25年辉煌成就

克瑞托斯庆祝Oriole火箭25年辉煌成就

快速阅读: Kratos开发的Oriole火箭因2012年推出的TVC系统而性能大幅提升,完成多次高精度任务,支持全球多地点发射,助力高超音速研究,至今累计140次成功发射,确立行业领先地位。 Oriole的成功之旅因Kratos在2012 […]

发布时间:2025年10月11日
国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

快速阅读: 北京邮电大学研发的“卫星互联网防火墙”安全载荷成功发射,实现物理层与网络层协同防护,具备10Gbps高并发流量检测能力,为卫星互联网安全提供重要保障。 感谢IT之家网友 tellMe 的线索投递! IT之家 9 月 19 日消息 […]

发布时间:2025年9月19日
ICEYE推出战术级太空情报系统ISR Cell

ICEYE推出战术级太空情报系统ISR Cell

快速阅读: ICEYE推出ISR Cell集装箱系统,使国防组织能现场获取近乎实时的太空ISR数据,加速高风险环境决策。系统已验证,提供更快、更可靠的情报,覆盖各决策层。预计2026年初交付,扩展军事客户基础。 美国加利福尼亚州洛杉矶(SP […]

发布时间:2025年9月13日
深学环形塑形技术助力天文观测,深化宇宙理解

深学环形塑形技术助力天文观测,深化宇宙理解

快速阅读: 科研团队开发的深度环路整形技术,显著提升了LIGO引力波观测站的控制精度和稳定性,降低了噪声水平,有助于天文学家更准确地研究宇宙动力学和形成过程,开启了下一代引力波科学的大门。 我们新开发的深度环路整形技术改进了引力波观测站的控 […]

发布时间:2025年9月5日
月球探索新突破!AI 助力撞击坑研究,效率提升惊人

月球探索新突破!AI 助力撞击坑研究,效率提升惊人

快速阅读: 中国科学院地球化学研究所发布“月球科学多模态专业大模型V2.0”,大幅提升月球地质研究效率,未来将向全球开放“数字月球”云平台。 在全球科技迅速发展的今天,中国科学家正借助人工智能的力量,推动月球科学研究的新进展。近日,在202 […]

发布时间:2025年9月1日
我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

快速阅读: 中国将与阿联酋、约旦、埃及等国合作,共建气象卫星数据应用中心,研发灾害早期预警系统,开发气象人工智能模型,提升阿拉伯地区灾害性天气预报能力。 IT之家 8 月 29 日消息,据央视报道,我国将与阿联酋、约旦以及埃及等国家共同开展 […]

发布时间:2025年8月29日