深寻发布低成本AI模型,挑战美国巨头地位
快速阅读: DeepSeek首次公开训练成本细节,使用512个英伟达H800芯片80小时内完成R1模型训练,成本远低于行业平均水平,引发全球科技市场关注与争议。
一项披露出现在周三发表于《自然》杂志的一篇同行评审文章中,这是杭州公司首次公开其训练成本的细节。今年早些时候,DeepSeek发布了低成本的人工智能系统,这一举动令全球科技市场感到不安,投资者担心这些模型可能会削弱英伟达等美国巨头的地位。
《自然》杂志的文章由创始人梁文峰共同撰写,提到R1模型使用了512个英伟达H800芯片,耗时80小时完成训练。而论文的1月版本中未提及成本细节。
通常,训练大型语言模型需要在强大的处理器上运行数周,成本可能高达数千万甚至数亿美元。2023年,OpenAI首席执行官山姆·阿尔特曼表示,基础模型的训练成本“远超”1亿美元,但未提供具体数字。
华盛顿对DeepSeek的说法表示质疑。6月,美国官员向路透社透露,尽管美国实施了出口禁令,该公司仍持有大量英伟达的高端H100芯片。英伟达称,DeepSeek合法使用了H800芯片,而DeepSeek首次承认也拥有A100芯片,用于初步开发阶段。
DeepSeek获取高级处理器的能力帮助其吸引了中国顶尖的研究人员,据路透社此前报道。
公司还回应了关于其复制OpenAI模型的指控。1月,美国官员和行业人士暗示DeepSeek“提炼”了OpenAI的技术。DeepSeek为这种做法辩护,称提炼可以提高性能并降低成本,使人工智能更加普及。这种方法允许一个人工智能系统从另一个系统的输出中学习,利用先前的投资同时减少开支。
该公司承认在其某些模型版本中使用了Meta的开源Llama,并指出V3模型的训练数据包含了来自网络的内容,其中包含OpenAI生成的答案,但这并非有意为之。
OpenAI未对路透社的评论请求作出回应。
(以上内容均由Ai生成)