Nvidia 计划将 DeepSeek 的 AI 速度提高 30 倍 – 首席执行官黄仁勋解释了具体方法
快速阅读: 据《ZDNet》最新报道,英伟达推出Blackwell芯片和Dynamo软件,大幅提升AI推理性能。黄仁勋在GTC大会上展示了多项新技术,包括DGX Spark、DGX Station和改进的网络交换机,同时宣布与多家公司合作扩展AI应用领域。
英伟达Dynamo推动AI推理性能提升
在一月份,深度求索的R1人工智能程序的出现引发了股市抛售。七周后,芯片巨头英伟达作为AI处理领域的领军者,试图在深度求索引发的经济效应中占据核心地位。
周二,在加州圣何塞的SAP中心,英伟达创始人兼CEO黄仁勋讨论了该公司Blackwell芯片如何显著加速深度求索R1。此外:
谷歌声称Gemma 3在使用一块GPU的情况下达到了深度求索98%的准确性——英伟达声称其GPU芯片可以处理相当于深度求索R1在数据中心通常拥有吞吐量的30倍,以每秒标记数来衡量,使用名为英伟达Dynamo的新开源软件。
“Dynamo可以捕捉到这种优势,并在同样数量的GPU和相同架构中提供30倍的性能,用于像深度求索这样的推理模型,”英伟达超大规模和高性能计算主管伊恩·巴克在黄仁勋在公司GTC大会上的主题演讲前的媒体简报会上表示。
英伟达声称其GPU芯片可以处理相当于深度求索R1在数据中心通常拥有吞吐量的30倍,以每秒标记数来衡量,使用名为英伟达Dynamo的新开源软件。Dynamo软件今天可以在GitHub上获得,它将推理工作分布在多达1000块英伟达GPU芯片上。通过将工作分解为并行运行,每秒可以完成更多的工作。
结果:对于一个价格为每百万标记1美元的推理任务,每秒可以运行更多的标记,从而提高提供GPU服务的每秒收入。巴克说,服务提供商随后可以选择在深度求索平台上运行更多客户查询,或者投入更多处理能力给单个用户以收取更高的高级服务费用。
高级服务:“AI工厂”可以在每百万标记的高价位上提供更高水平的高级服务,巴克说,“还可以增加整个工厂的总标记量。”“AI工厂”是英伟达对使用其芯片、软件和机架式设备运行大量AI工作的大型服务的称谓。
英伟达DGX Spark和DGX Station。
通过与Blackwell一起使用Dynamo,当前旗舰级AI GPU型号的Dynamo软件可以使这样的AI数据中心产生的收入比旧型号Hopper高出50倍,巴克说。
此外:
深度求索的AI模型证明容易被越狱——并且更糟
英伟达在HuggingFace上发布了自己调整版本的深度求索R1。英伟达版本将R1用于操作变量的位数减少到所谓的“FP4”,即浮点四比特,这是标准浮点32或B浮点16所需计算的一小部分。
“这显著提升了从Hopper到Blackwell的性能,”巴克说。“我们这样做没有任何有意义的变化、减少或准确度模型的损失。它仍然是那个产生智能推理标记的伟大模型。”
除了Dynamo,黄仁勋还推出了Blackwell的最新版本“Ultra”,紧接去年发布的首款产品之后。新版本增强了现有Blackwell 200的各种方面,例如将DRAM内存从192GB的HBM3e高带宽内存增加到最高可达288GB。
英伟达首席执行官黄仁勋在GTC上推出下一代‘Blackwell’芯片家族
与英伟达的Grace CPU芯片结合后,总共可以在公司的NVL72机架式计算机中组装72个Blackwell Ultra。该系统将在采用FP4格式下将推理性能提高50%,超过基于Grace-Blackwell 200芯片的现有NVL72。
其他在GTC上宣布的内容
面向AI开发者的微型个人电脑——最早于1月份的CES上作为Project Digits发布——已经正式定名为DGX Spark。该计算机使用了名为GB10的Grace-Blackwell组合版本。英伟达从今天开始接受Spark预订。
一款新的DGX“Station”台式电脑版本最早于2017年推出,现在也已发布。新模型使用Grace-Blackwell Ultra,并将配备784GB的DRAM。这与最初的DGX Station有很大不同,后者依赖Intel CPU作为主要主机处理器。该计算机将由这些厂商生产,并将于“今年晚些时候”上市。
英伟达首席执行官黄仁勋在GTC上宣布,Meta开源的大型语言模型Llama的一个改编版本,名为Llama Nemotron,具备“推理”能力;即生成一系列输出,列出得出结论的步骤。英伟达称,Nemotron模型相比其他领先的开源推理模型,推理速度提升了5倍。开发者可在HuggingFace平台上访问这些模型。
改进的网络交换机如预期,英伟达首次推出了一款“Spectrum-X”网络交换机的版本,将光纤收发器集成在同一芯片封装内,而非使用标准外部收发器。英伟达表示,这些交换机(端口速度为200GB/s或800GB/s),相比现有交换机,在能效方面提高了3.5倍(相较原有水平),信号完整性提升了63倍(相较原有水平),在大规模网络中可靠性提高了10倍,部署速度加快了1.3倍。这些交换机由台积电、激光制造商相干公司和Lumentum、光纤制造商康宁以及合同组装商富士康共同开发。
英伟达正在波士顿建设一个量子计算研究中心,该中心将与Quantinuum、Quantum Machines和QuEra合作,整合领先的量子硬件与AI超级计算机。该设施将使英伟达的合作伙伴能够访问Grace-Blackwell NVL72机架。
甲骨文正在其OCI计算服务的管理控制台中,将Nvidia的“NIM”微服务软件原生可用化,供其云客户使用。
黄仁勋宣布了新的合作伙伴,他们将集成公司的Omniverse软件用于虚拟产品设计协作,包括埃森哲、ANSYS、Cadence设计系统、Databricks、Dematic、Hexagon、欧姆龙、SAP、施耐德电气与ETAP以及西门子。
英伟达推出了Mega,这是一个软件设计“蓝图”,可插入到英伟达的Cosmos软件中,用于机器人模拟、训练和测试。早期用户Schaeffler和埃森哲正在使用Meta测试用于物料搬运任务的机器人手队列。
通用汽车现在正与英伟达合作,利用Omniverse和Cosmos开发“下一代车辆、工厂和机器人”。
更新的图形卡
英伟达更新了其RTX显卡系列。RTX Pro 6000 Blackwell工作站版提供了96GB的DRAM,并且可以将Ansys等软件中的工程任务(如仿真)的速度提高20%。第二个版本,Pro 6000服务器版,旨在运行在数据中心机架上。第三个版本更新了笔记本电脑中的RTX。
继续关注CES上首次讨论的机器人“基础模型”,黄仁勋周二透露了一个名为Nvidia Isaac GROOT N1的人形机器人基础模型。GROOT模型由英伟达预先训练,以实现认知科学家丹尼尔·卡尼曼所著《思考,快与慢》一书中提到的“系统1”和“系统2”思维。该软件可以从HuggingFace和GitHub下载。
医疗设备巨头GE是首批使用英伟达Isaac for Healthcare版本的公司之一。该软件提供了一个模拟医疗环境,可用于训练医疗机器人。应用可能包括在缺乏合格技术人员的地区进行X光和超声波检查。
英伟达通过一个新的版本更新了其Nvidia Earth天气预报技术,名为Omniverse Earth-2蓝图。它包括“参考工作流”以帮助公司原型化天气预测服务、GPU加速库、“物理-AI框架、开发工具和微服务”。
存储设备供应商可以通过一项名为Nvidia AI Data Platform的新合作将AI代理嵌入其设备中。这项合作意味着设备供应商可以选择在其设备中加入Blackwell GPU。与Nvidia合作的存储供应商包括DDN、戴尔、惠普企业、日立Vantara、IBM、NetApp、Nutanix、Pure Storage、VAST Data和WEKA。预计这些供应商的第一批产品将在本月上市。
英伟达表示,这是迄今为止规模最大的GTC大会,预计有25,000人亲自参加,300,000人在线参与。
想了解更多关于AI的信息?订阅我们的每周通讯“创新”。
人工智能2025年最佳编程AI(以及不该使用的——包括DeepSeek R1)
我测试了DeepSeek的R1和V3编程技能——我们还不至于绝望(至少目前如此)
如何从Microsoft 365计划中移除Copilot
如何在MacOS上安装LLM(以及为什么应该这样做)
2025年最佳编程AI(以及不该使用的——包括DeepSeek R1)
我测试了DeepSeek的R1和V3编码技能——我们还不用太过担心(至少现在还没有)
如何从您的Microsoft 365计划中移除Copilot
如何在MacOS上安装一个大型语言模型(LLM)以及为何这样做对您来说是值得的
(以上内容均由Ai生成)