深寻发布论文揭示R1模型低成本训练秘籍
快速阅读: 中国AI实验室DeepSeek发布论文揭示低成本训练R1模型秘密,仅耗资24.9万美元,远低于OpenAI的GPT-4。DeepSeek使用优化后的512个Nvidia H800芯片实现成本优势,对用户收费也显著低于行业水平。
中国人工智能实验室DeepSeek在一月份凭借其令人印象深刻的开源模型R1震撼市场,现在终于揭示了人们普遍好奇的秘密:如何以更低的成本训练R1。在周三发布的一篇论文中,DeepSeek表示,构建R1仅花费24.9万美元,这在人工智能领域的高成本背景下显得异常低廉。相比之下,DeepSeek此前在一篇研究论文中提到,其V3模型(类似于标准聊天机器人模型家族,例如Claude)的训练费用高达560万美元。尽管这一数字受到一些专家的质疑,认为可能未包含所有开发成本(包括基础设施、研发、数据等),但无论如何,这个费用仍远低于像OpenAI这样的公司构建模型所花费的金额(OpenAI的GPT-4据估计成本超过1亿美元)。
DeepSeek对用户的收费也反映了这种成本差异:每百万令牌(约75万字分析)收费0.14美元,而OpenAI对于相同级别的服务收费7.50美元。构建AI模型需要大量的资源投入,包括数据、GPU、数据中心的能耗和用水量、人员成本等,特别是对于那些具有更大训练数据集的更先进或功能更强的模型而言。对于中国实验室来说,由于旨在遏制竞争的出口禁令限制了美国制造芯片的获取,这又增加了一层障碍。DeepSeek通过战略性地优化较旧的芯片,成功创建了性能良好的模型,从而获得了竞争优势。在论文中,DeepSeek指出它使用了512个Nvidia H800芯片——这是一种功率较低、专门为中国市场设计的产品——来构建R1。
这篇论文是自一月以来DeepSeek发布的最重要的信息。本月早些时候,有报道称DeepSeek即将发布新的产品。今年一月,DeepSeek的发布因其潜在威胁而震动了人工智能行业,特别是因为R1的有效性让投资者重新审视支持像OpenAI这样尚未盈利的公司的高昂投资。尽管预计到今年年底人工智能支出将达到1.5万亿美元,但这一泡沫似乎短期内不会破裂。
(以上内容均由Ai生成)