我们听说您喜欢 Hbm – Nvidia 的 Blackwell Ultra GPU 有 288 GB

快速阅读: 据《The Register》最新报道，英伟达在GTC大会上推出Blackwell Ultra架构，提升AI推理性能，配备288GB HBM3e内存，性能较上代大幅提升。AMD的Instinct MI355X与其竞争，承诺更高内存和缩小性能差距，但英伟达系统仍具优势。

**GTC：英伟达推出Blackwell Ultra架构，提升AI推理性能**

英伟达的Blackwell GPU架构刚起步，便计划通过升级版技术“Ultra”进一步巩固其相对于AMD的竞争优势。在本周二加州圣何塞举办的GTC大会上，首席执行官黄仁勋宣布了这一消息。Blackwell Ultra加速器家族将提供最高15千万亿次浮点运算性能，并且每块芯片配备多达288 GB的HBM3e内存。

如果你从事AI推理任务，这一点尤为重要。尽管训练通常受限于计算能力，但推理任务更多依赖于内存容量。内存越大，能够处理的模型就越大。超大规模和高性能计算副总裁伊恩·巴克指出，Blackwell Ultra将使推理模型，包括DeepSeek-R1，以Hopper一代的10倍吞吐量运行，这意味着过去需要超过一分钟才能回答的问题，现在仅需十秒即可完成。

凭借每块板载HBM3e内存八堆栈共计288 GB的容量，单个Blackwell Ultra GPU可以运行明显更大的模型。在FP4精度下，Meta的Llama 405B可以完整容纳在一个GPU上，并且还有大量显存可供键值缓存使用。

为了实现更高的容量，英伟达的Blackwell Ultra采用了更厚的12层模块替代上一代的8层HBM3e堆栈，使容量增加了50%。不过，我们得知内存带宽保持不变，依旧领先业界的8 TB/s。

如果这听起来似曾相识，那是因为英伟达早已采取过类似策略。实际上，英伟达正遵循与H200相似的路线图，后者本质上是配备了更快、更高容量HBM3e的H100。然而，这一次，随着最新的Blackwell系列，英伟达不仅增加了更多内存，还在FP4精度下将峰值浮点性能提高了至少50%。英伟达表示，FP8和FP16/BF16性能与上一代相同。

**更多内存、更多算力、更多GPU**

尽管很多人关注的是英伟达价值数万美元的高端芯片，但重要的是要记住，Hopper、Blackwell以及现在的Ultra更新并非单一芯片，而是一整套产品线，从PCIe扩展卡到服务器，再到机架级系统，甚至整个超级计算机集群均有覆盖。

在数据中心中，英伟达将在其更传统的HGX服务器和机架规模的NVL72产品中提供Blackwell Ultra。

在过去几代中，英伟达的HGX外形规格最多包含八个风冷GPU通过高速互联连接在一起。然而，这次它选择在同一机箱内放置两倍数量的GPU，命名为B300 NVL16配置。

据英伟达称，基于Blackwell的B300 NVL将提供其最强大的Hopper系统7倍的算力和4倍的内存容量，相当于112千万亿次密集FP4计算和4.6 TB的HBM3e内存容量。然而，这也表明单个浮点性能达到7千万亿次密集FP4——与去年发布的Blackwell B100系列芯片相同。

对于更大规模的工作负载，英伟达还将以Superchip形态提供这些加速器。与去年的GB200类似，GB300 Superchip将配对两个Blackwell Ultra GPU，总共有576 GB的HBM3e内存，并搭配一个72核兼容Grace Arm的CPU。

最多36个这样的Superchip可以通过英伟达的NVLink开关连接在一起，形成一个NVL72机架级系统。与去年型号的13.5 TB HBM3e相比，基于Grace-Blackwell GB300的系统将提供高达20 TB的虚拟内存。而且，巴克表示，该系统已经为这一代进行了重新设计，旨在提高能效和可维护性。

如果这还不够大，那么这八个机架可以组合成一个GB300 SuperPOD系统，包含576个Blackwell Ultra GPU和288个Grace CPU。

**Blackwell的定位在哪里？**

鉴于其更大的内存容量，很容易看英伟达的产品线并怀疑Blackwell Ultra是否会蚕食非Ultra版本的出货量。然而，这两个平台显然针对不同的市场，英伟达可能会为其Ultra SKU收取溢价。

在今天的黄仁勋主旨演讲之前的新闻发布会上，英伟达的巴克描述了三种不同的AI扩展定律，包括预训练扩展、后训练扩展和测试时间扩展，每种都需要以不同方式应用计算资源。至少在纸面上，Blackwell Ultra更高的内存容量应该使其非常适合第三种模式，因为它允许客户以更快的速度或更高的数量提供更大的模型——即推理。

与此同时，对于那些构建计算密集型训练工作负载大型集群的人来说，我们预计标准Blackwell部件将继续看到强劲需求。毕竟，为不需要的内存支付额外费用是没有意义的。

话虽如此，没有任何理由不使用GB300进行训练。英伟达告诉我们，其ConnectX-8网络接口卡提供的更高HBM容量和更快的800G网络将有助于提高训练性能。

**竞争**

随着英伟达预计Blackwell Ultra处理器将在2025年下半年开始逐步推出，这将使其与AMD即将推出的Instinct MI355X加速器展开竞争。自2023年底推出MI300系列GPU以来，AMD的主要差异化优势是其加速器拥有比英伟达（141 GB和后来的192 GB）更多的内存（192 GB和后来的256 GB），这使其对客户，如微软或Meta，部署大规模数百亿甚至万亿参数模型更具吸引力。

MI355X还将看到AMD将内存容量增至288 GB HBM3e和带宽增至8 TB/s。更重要的是，AMD声称这些芯片将大幅缩小差距，承诺浮点性能大致与英伟达B200相当。

然而，在系统层面，英伟达的新HGX B300 NVL16系统将提供两倍内存，并显著更高的FP4浮点性能，大约高出50%。如果这还不够，AMD对英伟达NVL72的回答还需下一代，即其即将推出的MI400平台。

这或许可以解释为什么在最近一次财报电话会议上，AMD首席执行官苏姿丰透露她的公司计划提前发布MI355X，从下半年末提前到年中。Team Red也有潜力在价格和供应上压倒竞争对手，这是其从英特尔手中夺取市场份额的持续努力中使用的策略。

(以上内容均由Ai生成)