我们听说您喜欢 Hbm – Nvidia 的 Blackwell Ultra GPU 有 288 GB
快速阅读: 据《The Register》最新报道,英伟达在GTC大会上推出Blackwell Ultra架构,提升AI推理性能,配备288GB HBM3e内存,性能较上代大幅提升。AMD的Instinct MI355X与其竞争,承诺更高内存和缩小性能差距,但英伟达系统仍具优势。
**GTC:英伟达推出Blackwell Ultra架构,提升AI推理性能**
英伟达的Blackwell GPU架构刚起步,便计划通过升级版技术“Ultra”进一步巩固其相对于AMD的竞争优势。在本周二加州圣何塞举办的GTC大会上,首席执行官黄仁勋宣布了这一消息。Blackwell Ultra加速器家族将提供最高15千万亿次浮点运算性能,并且每块芯片配备多达288 GB的HBM3e内存。
如果你从事AI推理任务,这一点尤为重要。尽管训练通常受限于计算能力,但推理任务更多依赖于内存容量。内存越大,能够处理的模型就越大。超大规模和高性能计算副总裁伊恩·巴克指出,Blackwell Ultra将使推理模型,包括DeepSeek-R1,以Hopper一代的10倍吞吐量运行,这意味着过去需要超过一分钟才能回答的问题,现在仅需十秒即可完成。
凭借每块板载HBM3e内存八堆栈共计288 GB的容量,单个Blackwell Ultra GPU可以运行明显更大的模型。在FP4精度下,Meta的Llama 405B可以完整容纳在一个GPU上,并且还有大量显存可供键值缓存使用。
为了实现更高的容量,英伟达的Blackwell Ultra采用了更厚的12层模块替代上一代的8层HBM3e堆栈,使容量增加了50%。不过,我们得知内存带宽保持不变,依旧领先业界的8 TB/s。
如果这听起来似曾相识,那是因为英伟达早已采取过类似策略。实际上,英伟达正遵循与H200相似的路线图,后者本质上是配备了更快、更高容量HBM3e的H100。然而,这一次,随着最新的Blackwell系列,英伟达不仅增加了更多内存,还在FP4精度下将峰值浮点性能提高了至少50%。英伟达表示,FP8和FP16/BF16性能与上一代相同。
**更多内存、更多算力、更多GPU**
尽管很多人关注的是英伟达价值数万美元的高端芯片,但重要的是要记住,Hopper、Blackwell以及现在的Ultra更新并非单一芯片,而是一整套产品线,从PCIe扩展卡到服务器,再到机架级系统,甚至整个超级计算机集群均有覆盖。
在数据中心中,英伟达将在其更传统的HGX服务器和机架规模的NVL72产品中提供Blackwell Ultra。
在过去几代中,英伟达的HGX外形规格最多包含八个风冷GPU通过高速互联连接在一起。然而,这次它选择在同一机箱内放置两倍数量的GPU,命名为B300 NVL16配置。
据英伟达称,基于Blackwell的B300 NVL将提供其最强大的Hopper系统7倍的算力和4倍的内存容量,相当于112千万亿次密集FP4计算和4.6 TB的HBM3e内存容量。然而,这也表明单个浮点性能达到7千万亿次密集FP4——与去年发布的Blackwell B100系列芯片相同。
对于更大规模的工作负载,英伟达还将以Superchip形态提供这些加速器。与去年的GB200类似,GB300 Superchip将配对两个Blackwell Ultra GPU,总共有576 GB的HBM3e内存,并搭配一个72核兼容Grace Arm的CPU。
最多36个这样的Superchip可以通过英伟达的NVLink开关连接在一起,形成一个NVL72机架级系统。与去年型号的13.5 TB HBM3e相比,基于Grace-Blackwell GB300的系统将提供高达20 TB的虚拟内存。而且,巴克表示,该系统已经为这一代进行了重新设计,旨在提高能效和可维护性。
如果这还不够大,那么这八个机架可以组合成一个GB300 SuperPOD系统,包含576个Blackwell Ultra GPU和288个Grace CPU。
**Blackwell的定位在哪里?**
鉴于其更大的内存容量,很容易看英伟达的产品线并怀疑Blackwell Ultra是否会蚕食非Ultra版本的出货量。然而,这两个平台显然针对不同的市场,英伟达可能会为其Ultra SKU收取溢价。
在今天的黄仁勋主旨演讲之前的新闻发布会上,英伟达的巴克描述了三种不同的AI扩展定律,包括预训练扩展、后训练扩展和测试时间扩展,每种都需要以不同方式应用计算资源。至少在纸面上,Blackwell Ultra更高的内存容量应该使其非常适合第三种模式,因为它允许客户以更快的速度或更高的数量提供更大的模型——即推理。
与此同时,对于那些构建计算密集型训练工作负载大型集群的人来说,我们预计标准Blackwell部件将继续看到强劲需求。毕竟,为不需要的内存支付额外费用是没有意义的。
话虽如此,没有任何理由不使用GB300进行训练。英伟达告诉我们,其ConnectX-8网络接口卡提供的更高HBM容量和更快的800G网络将有助于提高训练性能。
**竞争**
随着英伟达预计Blackwell Ultra处理器将在2025年下半年开始逐步推出,这将使其与AMD即将推出的Instinct MI355X加速器展开竞争。自2023年底推出MI300系列GPU以来,AMD的主要差异化优势是其加速器拥有比英伟达(141 GB和后来的192 GB)更多的内存(192 GB和后来的256 GB),这使其对客户,如微软或Meta,部署大规模数百亿甚至万亿参数模型更具吸引力。
MI355X还将看到AMD将内存容量增至288 GB HBM3e和带宽增至8 TB/s。更重要的是,AMD声称这些芯片将大幅缩小差距,承诺浮点性能大致与英伟达B200相当。
然而,在系统层面,英伟达的新HGX B300 NVL16系统将提供两倍内存,并显著更高的FP4浮点性能,大约高出50%。如果这还不够,AMD对英伟达NVL72的回答还需下一代,即其即将推出的MI400平台。
这或许可以解释为什么在最近一次财报电话会议上,AMD首席执行官苏姿丰透露她的公司计划提前发布MI355X,从下半年末提前到年中。Team Red也有潜力在价格和供应上压倒竞争对手,这是其从英特尔手中夺取市场份额的持续努力中使用的策略。
(以上内容均由Ai生成)