重新思考 AI:DeepSeek 的剧本撼动了高支出、高计算的范式
快速阅读: 据《VentureBeat 公司》称,DeepSeek在资源受限情况下通过优化和创新,大幅降低了AI研发成本,引发行业震动。其高效模型R1和即将推出的R2挑战传统AI发展路径,推动行业向更高效方向转型,同时也带来数据使用和模型自我评估等潜在风险与机遇。
参加一个被企业领袖信任近二十年的活动——VB Transform,该活动汇聚了构建真正企业AI战略的专家。深入了解DeepSeek在一月份发布R1模型时,这不仅仅是普通的AI公告,而是一个具有里程碑意义的时刻,震惊了整个科技行业,迫使行业领导者重新审视他们对AI发展的基本方法。
DeepSeek取得的成就之所以引人注目,不仅在于它开发了全新能力,还在于它以极低的成本实现了与科技巨头相当的结果。DeepSeek并未做任何前所未有的事情,其创新源于追求不同的优先事项。因此,我们现在正处于两个并行轨道上的快速发展:效率和计算。随着DeepSeek准备推出R2模型,同时面临来自美国可能更加严格的芯片限制,重要的是看看它是如何引起如此多关注的。
在约束条件下进行工程设计
尽管DeepSeek的到来突然且戏剧性十足,但它让我们所有人着迷,因为它展示了即使在重大约束下,创新也能蓬勃发展。面对美国出口管制限制,DeepSeek无法轻易获得尖端AI芯片,被迫寻找通往AI进步的替代路径。虽然美国公司通过更强大的硬件、更大的模型和更好的数据来提升性能,DeepSeek则专注于优化现有资源。它以卓越的执行力实施了已知的想法——执行已知事物并做得很好是一种新颖的方式。这种效率至上的思维带来了令人印象深刻的结果。据报道,DeepSeek的R1模型仅以OpenAI运营成本的5%到10%就达到了同等的能力。据报告,DeepSeek的V3前代最终训练运行仅花费了600万美元——前特斯拉AI科学家安德烈·卡帕蒂将其描述为“预算笑谈”,相比之下,美国竞争对手花费了数千万甚至上亿美元。更为显著的是,虽然OpenAI据报道为其最近的“Orion”模型训练花费了5亿美元,但DeepSeek仅用560万美元就取得了更优的基准结果——不到OpenAI投资的1.2%。
如果你认为这些令人惊叹的结果是在DeepSeek由于无法访问先进的AI芯片而处于严重劣势的情况下实现的,我不得不告诉你,这个叙述并不完全准确(尽管它确实是个好故事)。最初的美国出口管制主要集中在计算能力上,而不是内存和网络连接——这两者对AI发展至关重要。这意味着DeepSeek所使用的芯片并不是劣质芯片;它们的网络和内存能力使DeepSeek能够在多个单元间并行操作,这是高效运行大型模型的关键策略。结合中国国家层面推动控制整个AI基础设施垂直堆栈的努力,这导致了许多西方观察家没有预料到的加速创新。DeepSeek的进步是AI发展中不可避免的一部分,但它们将已知的进展提前了几年,这非常了不起。
务实而非流程导向
除了硬件优化之外,DeepSeek在训练数据方面的做法也偏离了传统的西方实践。DeepSeek并非单纯依赖网络爬取的内容,而是大量利用合成数据及其他专有模型的输出。这是一种经典的模型蒸馏案例,即从强大模型中学习的能力。然而,这种方法可能会引发关于数据隐私和治理的问题,这可能让西方企业客户感到担忧。不过,这凸显了DeepSeek整体上务实的注重结果而非流程。有效运用合成数据是一个关键差异点。合成数据在训练大型模型方面非常有效,但你必须小心;某些模型架构比其他架构更能处理合成数据。例如,像DeepSeek那样的基于转换器的模型,具有混合专家(MoE)架构,往往在整合合成数据时更具鲁棒性,而早期Llama模型中使用的更传统的密集架构在训练过多的合成内容时可能会出现性能下降甚至“模型崩溃”的情况。这种架构敏感性很重要,因为合成数据引入的模式和分布与真实世界的数据不同。当模型架构不擅长处理合成数据时,它可能会学习合成数据生成过程中存在的捷径或偏见,而不是可泛化的知识。这可能导致在现实任务中的性能下降、面对新情况时出现更多幻觉或脆弱性。
有效运用合成数据是一个关键差异点。合成数据在训练大型模型方面非常有效,但你必须小心;某些模型架构比其他架构更能处理合成数据。例如,像DeepSeek那样的基于转换器的模型,具有混合专家(MoE)架构,往往在整合合成数据时更具鲁棒性,而早期Llama模型中使用的更传统的密集架构在训练过多的合成内容时可能会出现性能下降甚至“模型崩溃”的情况。尽管如此,据报道,DeepSeek的工程团队在初期规划阶段就专门设计了模型架构,以便考虑合成数据集成。这使得公司能利用合成数据的成本优势,同时保持性能。
市场反响
这一切为什么重要?抛开股市不说,DeepSeek的崛起已经引发了行业领导者的实质性战略转变。举例来说:
OpenAI。萨姆·阿尔特曼最近宣布计划发布自2019年以来公司的首个“开放权重”语言模型。对于一家以专有系统为基础建立业务的公司来说,这是一个相当显著的转变。看来,DeepSeek的崛起以及Llama的成功,给OpenAI的领导者造成了巨大冲击。就在DeepSeek亮相一个月后,阿尔特曼承认OpenAI在开源AI方面“站在了错误的一边”。随着据报道OpenAI每年在运营上花费70亿至80亿美元,来自高效替代方案(如DeepSeek)的经济压力已难以忽视。正如人工智能学者李开复直言:“你每年花费70亿或80亿美元,造成巨额亏损,而这里却有竞争对手凭借免费开源模型进入市场。”这迫使变革。这一经济现实促使OpenAI启动了一轮高达400亿美元的融资,使公司估值达到前所未有的3000亿美元。即便手握巨额资金,根本挑战依旧存在:OpenAI的方法比DeepSeek的资源消耗大得多。
由DeepSeek推动的另一个重要趋势是转向“测试时计算”(TTC)。由于各大主要人工智能实验室已利用互联网上的大量公开数据完成大部分模型训练,数据稀缺正在阻碍预训练的进一步提升。为解决此问题,DeepSeek宣布与清华大学展开合作,以实现“自我原则批评调优”(SPCT)。此方法训练AI开发自己的内容评判规则,并用这些规则提供详细批评。系统内置一个“法官”,实时评估AI的回答内容,将响应与核心规则和质量标准进行对比。这项发展是人工智能系统自主自我评估和改进运动的一部分,其中模型利用推理时间优化结果,而非单纯在训练阶段扩大模型规模。DeepSeek称其系统为“DeepSeek-GRM”(通用奖励建模)。然而,就像其模型蒸馏方法一样,这也可以说是兼具潜力与风险的结合。例如,若AI自行制定评判标准,这些原则可能偏离人类价值观、伦理或情境。这些规则可能过于僵化或带有偏见,优化形式而非实质,甚至强化错误假设或幻觉。此外,缺乏人为干预时,若“法官”存在缺陷或不一致,问题可能浮现。这是一种没有强大外部基础的AI自我对话。除此之外,用户和开发者可能不理解AI为何得出某结论——这引发更大担忧:是否应允许AI仅凭自身逻辑决定何为“好”或“正确”?这些风险不可轻视。与此同时,此方法正逐渐获得关注,因为DeepSeek再次汲取了他人的研究成果(想想OpenAI的“批评与修订”方法、Anthropic的宪法AI或关于自奖励代理的研究),创造了可能是商业努力中首个完整的SPCT全栈应用。这可能标志着人工智能自主性的重要转变,但仍需严格审计、透明度和保障措施。不仅是模型变得更聪明,还需确保它们在开始自我批评时保持一致、可解释且可信。
展望未来
因此,综合考虑这一切,DeepSeek的崛起标志着人工智能行业向并行创新轨道的更广泛转变。虽然公司继续构建更强大的计算集群以实现下一代能力,但也将在软件工程和模型架构改进方面集中精力寻找效率提升,以应对人工智能能源消耗远超发电能力增长的挑战。企业对此有所注意。例如,微软在全球多个地区暂停了数据中心开发,重新调整为更分散、高效的基础设施方法。尽管仍计划本财年在人工智能基础设施上投资约800亿美元,但公司正在重新分配资源,以应对DeepSeek引入市场的效率提升。Meta也作出回应,发布了最新的Llama 4模型系列,这是其首次采用MoE架构。Meta在发布Llama 4时特别将DeepSeek模型纳入基准对比,尽管详细性能结果未公开详述。这种直接竞争定位表明硅谷公司如今视中国人工智能模型(阿里巴巴也在参与其中)为基准模型。在如此短时间内发生如此多变化,美国制裁旨在维持美国在人工智能领域主导地位的设计反而加速了他们试图遏制的创新,这一点显得有些讽刺。通过限制材料获取,DeepSeek被迫另辟蹊径。向前看,随着全球行业继续演变,各方都需要适应。政策、人员及市场反应将持续重塑格局——无论是取消人工智能扩散规则、新的技术购买禁令还是其他任何事情。值得观察的是我们从彼此身上学到什么以及如何回应。
**作者简介**
Jae Lee是TwelveLabs的首席执行官兼联合创始人。
**每日洞察业务应用场景的VB日报**
如果你想给老板留下深刻印象,VB日报可以帮到你。我们为你提供公司如何运用生成式AI的内部信息,从监管变化到实际部署,以便你能分享见解以实现最大ROI。立即订阅阅读我们的隐私政策。感谢订阅。查看更多VB新闻通讯。
(以上内容均由Ai生成)