AI 蒸馏到底是什么？DeepSeek 是如何如此有效地使用它的？

快速阅读: 据《WebPro新闻》称，AI蒸馏技术通过小型模型模仿大型模型的能力，大幅提升了模型性能，降低了成本。深度求索利用此技术发布了接近GPT-4性能的开源模型，挑战了专有AI的垄断地位，推动了AI领域的公平竞争与创新。

在过去几个月里，人工智能研究社区一直在热议“蒸馏”这一过程——它能够大幅提升大型语言模型的性能，使其变得更小、更快，并且有时甚至能达到与庞大前辈模型相当的能力。在2024年初，蒸馏的力量变得尤为清晰，当时一家鲜为人知的中国公司深度求索（DeepSeek）发布了深度求索-V2（DeepSeek-V2）。这款开源模型在多项基准测试中几乎达到了与OpenAI旗舰产品GPT-4相当的水平。深度求索不仅震惊了开发者世界，还展示了模型蒸馏的巨大变革潜力。但究竟什么是AI蒸馏？深度求索是如何如此有效地利用它的？这对未来的AI军备竞赛意味着什么？让我们来揭开这个故事。

**什么是AI蒸馏？**

AI蒸馏，更准确地说是知识蒸馏，是一种机器学习技术，在这种技术中，一个较小、较简单的模型——称为“学生模型”——被训练以模仿较大、较复杂的“教师模型”的能力。这一概念由杰弗里·辛顿（Geoffrey Hinton）及其合作者在2015年的论文《神经网络中的知识蒸馏》中提出。辛顿描述了一种方法，通过这种方法，笨重但表现优异的模型的核心输出或“知识”可以转移到一个更轻量、更灵活的模型上。

**蒸馏如何工作？**

从高层次来看，蒸馏涉及两个关键模型：

– **教师模型**：非常大、准确，但通常资源密集型的神经网络。
– **学生模型**：较小的网络，旨在以远少的计算量重现教师的能力。

该过程大致如下：

1. **预训练**：教师模型首先在大规模数据集上进行训练，通常使用大多数团队无法获得的巨大计算资源。

2. **软目标**：不是仅仅训练学生基于“硬”真实标签（例如序列中下一个令牌是什么），而是训练学生匹配教师分配给每个可能输出的概率——即软目标。这些软目标提供了更丰富的信息，因为它们编码了教师关于每个可能输出相对可能性的细微知识。

3. **模仿学习**：调整学生的损失函数以最小化其输出与教师输出之间的差异，通常使用softmax概率分布之间的Kullback-Leibler（KL）散度。这种方法实现了几个强大的结果：需要更少内存和计算的小型模型、更快的推理速度，如果做得巧妙的话，性能可以接近教师模型。

**大型语言模型时代的蒸馏**

随着像OpenAI的GPT-3和GPT-4、Anthropic的Claude以及Google的Gemini（前身为Bard）等大型语言模型在AI领域树立了新标准，它们巨大的规模也带来了成本。推理通常需要数千个GPU和大量的能源资源。这推动了对蒸馏的兴趣激增：这些巨头的能力能否缩小到普通用户可用？

近年来，出现了大量“蒸馏”的开源LLM，如DistilBERT（HuggingFace压缩的BERT）和各种Llama变体。这些模型从其重量级前辈中提取出来，为开发人员提供了高质量AI的更精简、更经济的选择。

**深度求索的战略胜利**

深度求索（DeepSeek），一家总部位于中国并在亚洲以外相对不知名的团队，在2024年2月发布了深度求索-V2时一举成为全球瞩目的焦点。他们的公告令人印象深刻：这款开放源代码的模型以惊人的2360亿参数形式发布（具有“专家混合”架构），在MMLU、HumanEval和GSM8K等标准基准测试中超过了或匹配了GPT-4和Google的Gemini 1.5 Pro。

至关重要的是，深度求索的突破依赖于对知识蒸馏的精心使用。在其[技术论文](https://deepseekcoder.github.io/blogs/v2_intro/)中，他们详细介绍了三个阶段的训练过程：

1. **初始预训练**：与其他尖端模型类似，深度求索-V2首先在一个庞大的多语言数据集上进行训练，团队描述其积累了“两万亿高质量数据”。

2. **从世界级教师那里蒸馏**：这就是魔法发生的地方。深度求索-V2的学生模型不仅仅是依靠人工生成的数据，而是被训练以模仿几个最先进的模型的输出，包括GPT-4、GPT-4 Turbo、Anthropic的Claude 2.1和Gemini Pro。通过开放式生成任务和更结构化的评估数据集的组合，深度求索-V2不仅吸收了教师们“知道”的内容，还吸收了它们如何响应、推理和上下文化信息的方式。

3. **指令微调（监督对齐）**：最后，蒸馏后的模型接受了来自人类反馈的强化学习（RLHF）、指令遵循数据集以及额外的安全性重点微调。结果不是一个简单的复制品。蒸馏使深度求索-V2能够综合多个世界级教师的优点，在特定任务上往往超过任何一个单独的教师。这是一个成本更低的模型，并且至关重要的是，它被公开分享给了全世界。

**为什么这对OpenAI来说是一个盲点？**

OpenAI的竞争优势一直在于其模型的能力及其相对的排他性。GPT-4的完整权重尚未发布。虽然该公司提供了API访问和托管平台，但实际模型仍然是闭源的——这一举措旨在确保安全并保持竞争优势。

深度求索的举动颠覆了这一范式，原因有以下几点：

– **开源交付**：通过发布完整的模型权重和代码，深度求索赋予任何人运行、微调和审查以前只能通过付费API访问的模型的能力。

– **专家混合效率**：专家混合架构允许完整的2360亿参数规模在需要的地方发挥作用，同时保持推理成本相对较低（类似于210亿密集模型）。

– **算法飞跃**：通过从不仅仅是一个，而是多个世界级专有模型中蒸馏输出，深度求索跳过了先前需要数百万美元预训练和多年努力的逐步进展。

– **在基准比较中达到高潮**：深度求索-V2在MMLU基准测试中获得了87.5%的分数，超过了GPT-4 Turbo、Gemini 1.5 Pro和Claude 3 Opus，如[LMSYS](https://lmsys.org/blog/2024-04-17-leaderboard/)编译的排行榜所示。它还在编码任务（HumanEval得分273.7，这是开源模型的新纪录）和有时甚至更好的多语言基准测试中表现出色。OpenAI的“黑箱”优势开始消退。

正如MIT技术评论所指出的，“首次出现了一个至少接近GPT-4性能的开源模型——许多人认为这一成就不会在2025年或之后实现。”

**蒸馏如何拉平竞争环境**

深度求索的成就表明，GPT-4及其同类产品的封闭性并没有之前认为的那么难以逾越。通过利用蒸馏，深度求索能够“吸收”最佳专有模型的输出——并通过代理吸收其推理风格——从而绕过了原始预训练运行的需求。

**蒸馏作为力量倍增器**

知识蒸馏作为整个AI研究领域的“力量倍增器”。它使：

– **快速追赶**：新进入者可以通过蒸馏从最佳模型中获取状态，而不是从头开始。

– **成本效益**：通过蒸馏训练学生模型比训练原始教师便宜得多。

– **更安全和可定制的AI**：开源允许社区审查、审计和定制模型，促进更安全和透明的AI。

**风险与未来之路**

然而，成功带来了新的挑战。一些观察家担心，通过蒸馏“公开克隆”专有AI可能导致大量强大模型逃脱任何集中监管。正如安全专家布鲁斯·施奈尔（Bruce Schneier）所写：

> “任何人都可以从专有模型中蒸馏知识，这对企业和国家的AI战略以及负责任的AI治理提案构成了真正的挑战。”（Schneier on Security，2024年2月）

行业领导者呼吁平衡：利用蒸馏和开源创新的巨大潜力，同时确保危险能力（如欺骗性说服或无限制代码生成）保持受控。