深寻R1模型训练成本仅29.4万美元,挑战美国AI巨头

发布时间:2025年9月19日    来源:szf
深寻R1模型训练成本仅29.4万美元,挑战美国AI巨头

快速阅读: DeepSeek公布R1模型训练成本为29.4万美元,远低于美国对手,引发AI竞赛地位讨论。使用512个Nvidia H800芯片,初期曾用A100芯片。

中国人工智能开发商DeepSeek表示,在训练其R1模型上花费了29.4万美元,远低于美国竞争对手所报告的数字。这一论文可能会重新引发关于北京在人工智能开发竞赛中地位的讨论。

这家位于杭州的公司罕见地更新了信息——这是它首次公布R1的培训成本估计值。该信息出现在周三发表于学术期刊《自然》的一篇经过同行评审的文章中。

DeepSeek今年1月发布了低成本AI系统的消息,引发了全球投资者抛售科技股,他们担心这些新模型可能威胁到包括Nvidia在内的AI领导者的主导地位。

此后,该公司及其创始人梁文峰基本上从公众视野中消失,除了推出一些新的产品更新。

《自然》文章中,梁文峰被列为共同作者之一,文中提到DeepSeek的以推理为中心的R1模型的训练成本为29.4万美元,使用了512个Nvidia H800芯片。1月份发布的文章早期版本未包含此信息。

用于支持AI聊天机器人的大型语言模型的训练成本,是指运行强大的芯片集群数周甚至数月来处理大量文本和代码所产生的费用。

美国AI巨头OpenAI的首席执行官Sam Altman在2023年表示,基础模型的训练成本“远远超过”1亿美元——尽管他的公司没有为其任何发布提供详细的数字。

DeepSeek关于其开发成本和技术使用的某些声明受到了美国公司和官员的质疑。

Nvidia为满足中国市场需求设计的H800芯片,是在美国2022年10月禁止向中国出口更强大的H100和A100 AI芯片之后推出的。

美国官员6月告诉路透社,DeepSeek能够获得“大量”H100芯片,这些芯片是在美国实施出口管制后采购的。Nvidia当时对路透社表示,DeepSeek使用的是合法获取的H800芯片,而非H100芯片。

在随《自然》文章附带的补充信息文件中,公司首次承认拥有A100芯片,并表示在开发初期阶段使用了这些芯片。

“关于DeepSeek-R1的研究,我们使用A100 GPU进行了小规模模型的实验准备。”研究人员写道。在此初始阶段后,R1在512个H800芯片集群上总共训练了80小时。

路透社此前报道,DeepSeek能够吸引中国最优秀的人才,部分原因是它是少数几家运营A100超级计算集群的国内公司之一。

模型蒸馏技术

DeepSeek首次回应——尽管不是直接回应——白宫高级顾问和其他美国AI人士1月份提出的指责,即它有意将OpenAI的模型“蒸馏”到自己的模型中。

DeepSeek一直捍卫蒸馏技术,认为这可以提高模型性能,同时大大降低了训练和运行的成本,使得更多人能够访问资源密集型的AI技术。

蒸馏技术指的是一个AI系统通过学习另一个AI系统,从而继承前一个模型在时间和计算能力上的投资成果,而无需承担相应的成本。

DeepSeek在今年1月表示,它使用了Meta的开源Llama AI模型来创建一些自己模型的蒸馏版本。

在《自然》杂志中,DeepSeek称其V3模型的训练数据依赖于爬取的网页,其中包含“大量由OpenAI模型生成的答案,这可能导致基础模型间接地从其他强大模型中获取知识”。

但DeepSeek表示,这不是故意行为,而是偶然发生的。

OpenAI尚未立即回应评论请求。

(以上内容均由Ai生成)

你可能还想读

塔塔与英特尔携手布局半导体与AI

塔塔与英特尔携手布局半导体与AI

快速阅读: 12月8日消息,印度塔塔集团与英特尔达成战略合作,将共同推进半导体制造、封装测试及AI计算在印发展,强化本土产业链并把握人工智能市场机遇。 今日,印度塔塔集团与英特尔公司宣布达成战略合作,双方将共同推进半导体及系统制造、封装测试 […]

发布时间:2025年12月8日
木头姐减持Palantir股票,科技股风向生变

木头姐减持Palantir股票,科技股风向生变

快速阅读: 据最新消息,方舟投资创始人凯茜·伍德近期持续减持帕兰提尔股份,反映其对高估值科技股短期走势的谨慎态度;迈克尔·伯里亦看空科技板块,市场正重新评估AI企业盈利与估值合理性。 近日,美国知名投资机构方舟投资(Ark Invest)创 […]

发布时间:2025年12月8日
AI助力结肠癌诊断提速增准

AI助力结肠癌诊断提速增准

快速阅读: 12月8日消息,一项发表于《国际医学信息学杂志》的研究显示,AI在结肠癌诊断中显著提升检测速度与准确率,可解释性模型增强临床信任,但数据多样性不足和临床整合不充分仍制约其广泛应用。 今日,一项发表于《国际医学信息学杂志》的研究显 […]

发布时间:2025年12月8日
亚马逊Trainium3向英伟达架构靠拢

亚马逊Trainium3向英伟达架构靠拢

快速阅读: 据最新消息,亚马逊发布Trainium3 UltraServer机架系统,采用NeuronSwitch互连技术构建交换式架构,与英伟达、AMD方案趋同;谷歌则坚持环面拓扑,AI基础设施技术路线呈现分化。 日前,亚马逊在年度技术大 […]

发布时间:2025年12月8日
AI赋能数据分析,渠道伙伴机遇大增

AI赋能数据分析,渠道伙伴机遇大增

快速阅读: 据最新消息,Tableau首席产品官指出AI正推动数据分析迈入新阶段,聚焦对话式分析、实时洞察与语义层技术,分析准确率提升至90%,2025年将成为AI智能体部署关键年。 日前,数据分析企业Tableau首席产品官索南德·琼斯表 […]

发布时间:2025年12月8日
苹果推线上制造学院赋能中小企业

苹果推线上制造学院赋能中小企业

快速阅读: 据最新消息,苹果公司将底特律“制造学院”转为线上平台,联合密歇根州立大学面向全美中小制造企业开放,课程涵盖先进制造与机器学习等领域,旨在提升美国制造业竞争力并回应产业回流呼声。 日前,苹果公司宣布将其此前在底特律设立的“制造学院 […]

发布时间:2025年12月8日
梁文锋旗下基金豪赚摩尔线程IPO

梁文锋旗下基金豪赚摩尔线程IPO

快速阅读: 12月8日消息,摩尔线程科创板上市首日股价涨逾五倍,IPO募资80亿元,系今年内地第二大IPO;其四个月极速过会凸显监管对核心技术企业支持,国产GPU产业加速发展。 摩尔线程科技有限公司近日在上海证券交易所科创板成功上市,其股票 […]

发布时间:2025年12月8日
微软Copilot全面升级,免费与付费功能详解

微软Copilot全面升级,免费与付费功能详解

快速阅读: 12月8日消息,微软宣布Copilot多层级升级,覆盖个人、企业及Copilot+ PC用户,新增智能代理、语义搜索与安全平台Agent 365,推动AI深度融入办公与生活场景。 微软近日宣布对其Copilot人工智能助手进行多 […]

发布时间:2025年12月8日