Nvidia 计划将 DeepSeek 的 AI 速度提高 30 倍 – 首席执行官黄仁勋解释了具体方法

快速阅读: 据《ZDNet》最新报道，英伟达推出Blackwell芯片和Dynamo软件，大幅提升AI推理性能。黄仁勋在GTC大会上展示了多项新技术，包括DGX Spark、DGX Station和改进的网络交换机，同时宣布与多家公司合作扩展AI应用领域。

英伟达Dynamo推动AI推理性能提升

在一月份，深度求索的R1人工智能程序的出现引发了股市抛售。七周后，芯片巨头英伟达作为AI处理领域的领军者，试图在深度求索引发的经济效应中占据核心地位。

周二，在加州圣何塞的SAP中心，英伟达创始人兼CEO黄仁勋讨论了该公司Blackwell芯片如何显著加速深度求索R1。此外：

谷歌声称Gemma 3在使用一块GPU的情况下达到了深度求索98%的准确性——英伟达声称其GPU芯片可以处理相当于深度求索R1在数据中心通常拥有吞吐量的30倍，以每秒标记数来衡量，使用名为英伟达Dynamo的新开源软件。

“Dynamo可以捕捉到这种优势，并在同样数量的GPU和相同架构中提供30倍的性能，用于像深度求索这样的推理模型，”英伟达超大规模和高性能计算主管伊恩·巴克在黄仁勋在公司GTC大会上的主题演讲前的媒体简报会上表示。

英伟达声称其GPU芯片可以处理相当于深度求索R1在数据中心通常拥有吞吐量的30倍，以每秒标记数来衡量，使用名为英伟达Dynamo的新开源软件。Dynamo软件今天可以在GitHub上获得，它将推理工作分布在多达1000块英伟达GPU芯片上。通过将工作分解为并行运行，每秒可以完成更多的工作。

结果：对于一个价格为每百万标记1美元的推理任务，每秒可以运行更多的标记，从而提高提供GPU服务的每秒收入。巴克说，服务提供商随后可以选择在深度求索平台上运行更多客户查询，或者投入更多处理能力给单个用户以收取更高的高级服务费用。

高级服务：“AI工厂”可以在每百万标记的高价位上提供更高水平的高级服务，巴克说，“还可以增加整个工厂的总标记量。”“AI工厂”是英伟达对使用其芯片、软件和机架式设备运行大量AI工作的大型服务的称谓。

英伟达DGX Spark和DGX Station。

通过与Blackwell一起使用Dynamo，当前旗舰级AI GPU型号的Dynamo软件可以使这样的AI数据中心产生的收入比旧型号Hopper高出50倍，巴克说。

此外：

深度求索的AI模型证明容易被越狱——并且更糟

英伟达在HuggingFace上发布了自己调整版本的深度求索R1。英伟达版本将R1用于操作变量的位数减少到所谓的“FP4”，即浮点四比特，这是标准浮点32或B浮点16所需计算的一小部分。

“这显著提升了从Hopper到Blackwell的性能，”巴克说。“我们这样做没有任何有意义的变化、减少或准确度模型的损失。它仍然是那个产生智能推理标记的伟大模型。”

除了Dynamo，黄仁勋还推出了Blackwell的最新版本“Ultra”，紧接去年发布的首款产品之后。新版本增强了现有Blackwell 200的各种方面，例如将DRAM内存从192GB的HBM3e高带宽内存增加到最高可达288GB。

英伟达首席执行官黄仁勋在GTC上推出下一代‘Blackwell’芯片家族

与英伟达的Grace CPU芯片结合后，总共可以在公司的NVL72机架式计算机中组装72个Blackwell Ultra。该系统将在采用FP4格式下将推理性能提高50%，超过基于Grace-Blackwell 200芯片的现有NVL72。

其他在GTC上宣布的内容

面向AI开发者的微型个人电脑——最早于1月份的CES上作为Project Digits发布——已经正式定名为DGX Spark。该计算机使用了名为GB10的Grace-Blackwell组合版本。英伟达从今天开始接受Spark预订。

一款新的DGX“Station”台式电脑版本最早于2017年推出，现在也已发布。新模型使用Grace-Blackwell Ultra，并将配备784GB的DRAM。这与最初的DGX Station有很大不同，后者依赖Intel CPU作为主要主机处理器。该计算机将由这些厂商生产，并将于“今年晚些时候”上市。

英伟达首席执行官黄仁勋在GTC上宣布，Meta开源的大型语言模型Llama的一个改编版本，名为Llama Nemotron，具备“推理”能力；即生成一系列输出，列出得出结论的步骤。英伟达称，Nemotron模型相比其他领先的开源推理模型，推理速度提升了5倍。开发者可在HuggingFace平台上访问这些模型。

改进的网络交换机如预期，英伟达首次推出了一款“Spectrum-X”网络交换机的版本，将光纤收发器集成在同一芯片封装内，而非使用标准外部收发器。英伟达表示，这些交换机（端口速度为200GB/s或800GB/s），相比现有交换机，在能效方面提高了3.5倍（相较原有水平），信号完整性提升了63倍（相较原有水平），在大规模网络中可靠性提高了10倍，部署速度加快了1.3倍。这些交换机由台积电、激光制造商相干公司和Lumentum、光纤制造商康宁以及合同组装商富士康共同开发。

英伟达正在波士顿建设一个量子计算研究中心，该中心将与Quantinuum、Quantum Machines和QuEra合作，整合领先的量子硬件与AI超级计算机。该设施将使英伟达的合作伙伴能够访问Grace-Blackwell NVL72机架。

甲骨文正在其OCI计算服务的管理控制台中，将Nvidia的“NIM”微服务软件原生可用化，供其云客户使用。

黄仁勋宣布了新的合作伙伴，他们将集成公司的Omniverse软件用于虚拟产品设计协作，包括埃森哲、ANSYS、Cadence设计系统、Databricks、Dematic、Hexagon、欧姆龙、SAP、施耐德电气与ETAP以及西门子。

英伟达推出了Mega，这是一个软件设计“蓝图”，可插入到英伟达的Cosmos软件中，用于机器人模拟、训练和测试。早期用户Schaeffler和埃森哲正在使用Meta测试用于物料搬运任务的机器人手队列。

通用汽车现在正与英伟达合作，利用Omniverse和Cosmos开发“下一代车辆、工厂和机器人”。

更新的图形卡

英伟达更新了其RTX显卡系列。RTX Pro 6000 Blackwell工作站版提供了96GB的DRAM，并且可以将Ansys等软件中的工程任务（如仿真）的速度提高20%。第二个版本，Pro 6000服务器版，旨在运行在数据中心机架上。第三个版本更新了笔记本电脑中的RTX。

继续关注CES上首次讨论的机器人“基础模型”，黄仁勋周二透露了一个名为Nvidia Isaac GROOT N1的人形机器人基础模型。GROOT模型由英伟达预先训练，以实现认知科学家丹尼尔·卡尼曼所著《思考，快与慢》一书中提到的“系统1”和“系统2”思维。该软件可以从HuggingFace和GitHub下载。

医疗设备巨头GE是首批使用英伟达Isaac for Healthcare版本的公司之一。该软件提供了一个模拟医疗环境，可用于训练医疗机器人。应用可能包括在缺乏合格技术人员的地区进行X光和超声波检查。

英伟达通过一个新的版本更新了其Nvidia Earth天气预报技术，名为Omniverse Earth-2蓝图。它包括“参考工作流”以帮助公司原型化天气预测服务、GPU加速库、“物理-AI框架、开发工具和微服务”。

存储设备供应商可以通过一项名为Nvidia AI Data Platform的新合作将AI代理嵌入其设备中。这项合作意味着设备供应商可以选择在其设备中加入Blackwell GPU。与Nvidia合作的存储供应商包括DDN、戴尔、惠普企业、日立Vantara、IBM、NetApp、Nutanix、Pure Storage、VAST Data和WEKA。预计这些供应商的第一批产品将在本月上市。

英伟达表示，这是迄今为止规模最大的GTC大会，预计有25,000人亲自参加，300,000人在线参与。

想了解更多关于AI的信息？订阅我们的每周通讯“创新”。

人工智能2025年最佳编程AI（以及不该使用的——包括DeepSeek R1）

我测试了DeepSeek的R1和V3编程技能——我们还不至于绝望（至少目前如此）

如何从Microsoft 365计划中移除Copilot

如何在MacOS上安装LLM（以及为什么应该这样做）

2025年最佳编程AI（以及不该使用的——包括DeepSeek R1）

我测试了DeepSeek的R1和V3编码技能——我们还不用太过担心（至少现在还没有）

如何从您的Microsoft 365计划中移除Copilot

如何在MacOS上安装一个大型语言模型（LLM）以及为何这样做对您来说是值得的

(以上内容均由Ai生成)