AI 公司正在互相复制作业以制作廉价模型
快速阅读: 据《商业内幕》称,构建人工智能的成本持续下降,新技术如蒸馏技术让开发者受益,但也引发担忧。蒸馏技术能以较低成本训练优质模型,但可能削弱模型在其他任务中的表现。尽管如此,这降低了构建人工智能的门槛。基础模型公司面临挑战,可能采取措施防止模型被蒸馏。未来,基础模型可能会变得更加商品化。
构建人工智能的成本已降至历史新低。新的、更便宜的人工智能开发技术令开发者们欢欣鼓舞——但这并非全是好事。随着成本降至最低点,大型科技公司的基础模型建设者必须证明他们的高价产品是合理的。创办一家人工智能公司需要多少资金?答案是每天都在减少,因为大型语言模型的创建成本正在不断降低。
人工智能计算的成本正在下降。此外,一种名为蒸馏的技术正在以折扣价制造优质的大型语言模型(LLM),这在人工智能领域引起了热烈反响,但也带来了一些担忧。答案是每天都在减少,因为大型语言模型的创建成本正在不断降低。一位人工智能专家讨论了运行和训练人工智能模型所需的硬件和基础设施。蒸馏是一个旧概念,如今有了新的意义。对大多数人来说,这是个好消息。对少数人来说,情况比较复杂。对人工智能的未来发展来说,它非常重要。
蒸馏本质上是用一个模型来改进另一个模型。一个较大的“教师”模型被提示生成响应和推理路径,而较小的“学生”模型则模仿其行为。中国公司深寻(DeepSeek)因其与OpenAI竞争的模型训练成本据报约为500万美元而引发关注,导致股市恐慌,英伟达的市值因此减少了6000亿美元(但这种下跌尚未发生)。根据今年1月发布的一项研究,加州大学伯克利分校的一个研究团队仅以不到1000美元的计算成本就训练出了两个新模型。2月初,斯坦福大学、华盛顿大学和艾伦人工智能研究所的研究人员仅以极低的成本就训练出了一个可用的推理模型。
蒸馏是这一切发展的关键。它是开发者工具箱中的工具之一,用于在训练阶段改进模型,但成本远低于其他方法。这可能意味着使用Meta的Llama等通用基础模型,并通过另一个模型将其蒸馏成美国税法专家。这也可能意味着使用深寻的R1推理模型将Llama蒸馏成具备更强推理能力的模型——即当人工智能需要更长时间来生成答案时,它会质疑自己的逻辑并逐步展示得出答案的过程。“R1论文中最有趣的部分或许是能够通过微调非推理的小型模型使其成为推理模型,”Semianalysis的分析师在一月份写道。
深寻的全尺寸模型及最大版本的Llama非常庞大,只能由特定的硬件运行。“蒸馏模型占用的空间更小,参数更少,内存需求也更低,”图灵资本的一般合伙人萨米尔·库马尔解释道。深寻的突破在于,蒸馏模型在变小时不仅没有像预期那样变差,反而变得更好。
蒸馏技术并不新鲜,但它的应用已经发生变化。蒸馏技术最早出现在2015年,由谷歌AI负责人杰夫·迪恩、杰弗里·欣顿和现任谷歌DeepMind研究副总裁奥里奥尔·维纳尔斯共同撰写的一篇文章中。维纳尔斯最近表示,这篇论文曾被拒绝在著名的NeurIPS会议上发表,因为它被认为对该领域影响不大。十年后,蒸馏突然成为人工智能讨论的前沿话题。现在与那时相比,蒸馏之所以如此强大,是因为可使用的开放源代码模型数量和质量的提升。
“我认为通过发布一个非常强大的模型——迄今为止最强大的模型——并在MIT许可下开源,深寻实际上削弱了所有大型模型提供商的竞争优势,将他们最大的模型藏在幕后,”IBM的大型语言模型Granite技术管理总监凯特·索尔在一月份的公司专家混合播客中说。索尔表示,Hugging Face上的大型语言模型仓库充斥着Meta的Llama和阿里巴巴的Qwen的蒸馏版本,这些都是开源的传统模型。事实上,在Hugging Face上的150万个模型中,有3万个模型的名字中包含“distill”,这通常表示这是一个蒸馏模型。但这些蒸馏模型都没有进入该网站的排行榜。
就像在现实世界中的折扣店购物一样,蒸馏提供了市场上最低的成本效益比,但选择范围有限且存在一些缺点。通过蒸馏使模型特别擅长某一类型的任务可能会削弱其在其他领域的表现。苹果研究人员试图创建一个“蒸馏缩放定律”,该定律可以根据包括要构建的模型大小、教师模型大小和使用的计算能力等因素来预测蒸馏人工智能模型的性能。他们得出结论,蒸馏在某些情况下可以比传统的监督学习表现得更好,但前提是使用高质量的“教师”模型。教师模型也需要大于正在训练的模型,但不能超过某个阈值。当教师模型变得过大时,改进就会停止。
尽管如此,这项技术仍可以缩短创始人将想法转化为原型的时间,并总体上降低构建人工智能的门槛。寻找更聪明、更小的模型的捷径并不一定意味着不需要大型、昂贵的基础模型,但这确实引发了对那些构建大型模型的公司财务前景的质疑。基础模型是否会走向终结?
“几乎全世界的AI开发者”都在使用深寻的R-1来蒸馏新模型,英伟达首席执行官黄仁勋在公司最新季度财报后的CNBC采访中表示。蒸馏带来了机遇,但因其对大规模、昂贵的专有模型(如OpenAI和Anthropic所制作的)构成威胁,它也可能遭遇反对。
“我认为基础模型将会变得越来越商品化。预训练模型所能达到的极限是有限的,我们正越来越接近那堵墙,”云平台超几何的联合创始人张嘉斯表示。张嘉斯表示,大型语言模型的成功在于创造受欢迎的产品,而不是仅仅拥有受欢迎的模型——这或许证实了Meta决定将其Llama模型部分开源的决定。
据一位要求匿名讨论其他公司的谷歌DeepMind研究员透露,基础模型公司还可以采取更具侵略性的策略。拥有推理模型的公司可以删除或减少向用户展示的推理步骤或“痕迹”,以防止其被用于蒸馏。OpenAI在其大型o1推理模型中隐藏了完整的推理路径,但后来发布了一个较小的版本o3-mini,这个版本确实展示了这些信息。
“在未来几个月里,你会看到我国领先的AI公司试图阻止蒸馏,”唐纳德·特朗普总统的加密货币和人工智能政策顾问大卫·萨克斯在一月份接受福克斯新闻采访时说。然而,在开放源代码人工智能的“狂野西部”中,抑制蒸馏可能难以实现。
“任何人都可以去Hugging Face找到大量由GPT模型生成的数据集,这些数据集经过格式化和设计,用于训练,而且很可能未获得授权。这就像一个公开的秘密,”索尔在同一个播客中表示。
(以上内容均由Ai生成)