Nvidia GPU 路线图证实了这一点:摩尔定律已死并被埋葬
快速阅读: 据《The Register》最新报道,英伟达CEO黄仁勋在GTC大会透露未来GPU计划,包括功率高达600千瓦的机架系统。尽管面临工艺和技术挑战,但此举为合作伙伴提供了准备时间,同时也为竞争对手创造了机会。
正如黄仁勋常说的那样,摩尔定律已死——而在本月的英伟达GTC大会上,这家GPU巨头的首席执行官无意间透露了计算扩展法则目前面临的困境有多严重。在台上,黄仁勋不仅展示了下一代Blackwell Ultra处理器,还详细介绍了未来两代加速计算平台的诸多细节,其中包括一个功率高达600千瓦、包含576个GPU的机架规模系统。此外,我们还得知,即将推出的GPU家族计划于2028年面世,以物理学家理查德·费曼的名字命名。这听起来是不是有些夸张?
芯片制造商偶尔披露其技术路线图并不罕见,但一次性公布这么多信息却很少见。这是因为英伟达正面临多重挑战。它不仅遇到了工艺技术停滞的问题,还遭遇了其他超出其掌控范围的障碍。对于密切关注行业动态的人来说,这些挑战或许并不令人意外。分布式计算一直像一场追逐“瓶颈”的游戏,而人工智能可能是这场游戏的终极体现。
最明显的挑战之一围绕着计算扩展展开。近年来,工艺技术的进步几乎陷入停滞。尽管还有一些可调整的参数,但它们变得越来越难以改变。面对这些限制,英伟达的战略非常简单:尽可能多地在每个计算节点中增加硅片的数量。如今,英伟达最密集的系统——即一个机架——利用其高速1.8TB/s的NVLink架构,将72个GPU整合到一个计算域中。随后,通过InfiniBand或以太网将八台或多台这样的机架连接起来,以满足所需的计算和内存容量。
在GTC大会上,英伟达透露其计划将这一数字提升至每机架144个GPU,最终达到576个GPU。然而,扩展不仅仅局限于机架;芯片封装也在进行类似的扩展。这一点在去年Blackwell加速器发布时就已经显现出来。这些芯片相较于Hopper性能提升了五倍,听起来非常出色,直到你意识到它需要两倍的晶圆数量、一种新的4位数据类型以及额外的500瓦功率才能实现。
实际情况是,以FP16为基准,英伟达顶级规格的Blackwell芯片仅比GH100快约1.25倍,在1250个密集浮点运算TFLOPS与989之间——只是碰巧有两个芯片。
同样的情况在去年Blackwell加速器发布时也得到了验证。这些芯片相较于Hopper性能提升了五倍,听起来很棒,直到你意识到它需要两倍的晶圆数量、一种新的4位数据类型以及额外的500瓦功率才能实现。到2027年,英伟达首席执行官黄仁勋预计随着Rubin Ultra NVL576的推出,机架的功耗将达到600千瓦。
我们尚不清楚英伟达计划为其下一代芯片采用哪种工艺技术,但可以确定的是,Rubin Ultra将继续这一趋势,从两个光罩限制的芯片跃升至四个。即便效率提高了大约20%,黄仁勋预计仍能脱离台积电2nm工艺,但这依旧会是一个非常热的封装。
不仅仅是计算方面的问题,还有内存。你们当中目光敏锐的人可能会注意到Rubin到Rubin Ultra之间在容量和带宽上的显著增长——每包容量从288GB提升到1TB。大约一半来源于更快、容量更高的内存模块,但另一半则来自于将用于内存的硅片数量翻倍,从Blackwell和Rubin的八个模块增加到Rubin Ultra的十六个模块。
更高的容量意味着英伟达可以在单个封装中塞入更多的模型参数,大约2万亿个FP4参数,或者每个“GPU”(现在他们开始计算单个晶圆而不是插座)5000亿个参数。HBM4e看起来也能有效将内存带宽提高一倍,超过HBM3e。带宽预计将从今天的Blackwell芯片每秒约4TB跳升至Rubin Ultra的约8TB。
不幸的是,除非工艺技术有重大突破,否则未来的英伟达GPU封装可能会装载更多的硅片。
好消息是,工艺进步并不是唯一扩展计算或内存的方法。一般来说,从16位降到8位精度可以有效将吞吐量翻倍,同时还将给定模型的内存需求减半。问题是,英伟达正在用尽可以降低的位数来提升性能。从Hopper到Blackwell,英伟达减少了四位,增加了两倍的硅片,并声称获得了五倍的浮点性能提升。
但在四舍五入精度以下,LLM推理变得相当困难,困惑度快速升高。尽管如此,关于超低精度量化的研究正在进行,甚至低至1.58位,同时保持准确性。
减少精度并不是获取FLOPS的唯一方法。你还可以减少高精度数据类型的芯片面积,因为AI工作负载并不需要这些。
我们在Blackwell Ultra上看到了这一点。英伟达加速计算业务部门副总裁伊恩·巴克在一次采访中告诉我们,他们实际上降低了芯片的双精度(FP64)张量核心性能,以换取50%更多的4位FLOPS。
这是否意味着FP64在英伟达即将被淘汰,还有待观察,但如果你真的关心双精度性能,AMD的GPU和APU应该已经排在你的优先考虑名单前列了。无论如何,英伟达的发展路径已十分清晰:其计算平台将变得更大、更密集、更热、更耗电。正如黄仁勋上周在记者问答中所说,机架的实际极限取决于你能为其提供多少电力。“一个数据中心现在是250兆瓦。这大概是每机架的合理上限。我认为其余的就是细节问题了,”黄仁勋表示。“如果你说一个数据中心是一千兆瓦,我会说每机架达到一千兆瓦听起来像是一个合理的上限。”
无法回避电力问题
自然地,600千瓦的机架对数据中心运营商来说是一个巨大的挑战。
需要明确的是,冷却超密集计算的兆瓦级并非新问题。Cray、Eviden和联想等公司的技术人员多年来已解决了这一问题。变化在于,我们现在谈论的不是每年少数几个精品计算集群。我们说的是几十个集群,其中一些集群大到足以让Top500榜单上的最强大超级计算机退位,如果用Linpack捆绑200,000个Hopper GPU能赚钱的话。
在这些规模下,高度专业化的低产量热管理和电源输送系统难以满足需求。不幸的是,数据中心供应商——你知道那些销售让你价值数百万美元的NVL72机架所需的不那么吸引人的小部件的人——才刚刚开始跟上需求。
我们怀疑这就是为什么迄今为止宣布的许多Blackwell部署都是针对风冷的HGX B200,而不是黄仁勋一直在吹捧的NVL72。这些包含八个GPU的HGX系统可以在许多现有的H100环境中部署。英伟达多年来一直采用30-40千瓦的机架配置,所以跳到60千瓦并不是太大的飞跃,而且即使降到每机架两到三台服务器仍然是一个选项。
NVL72是一种受超大规模数据中心启发的机架级设计,具有直流母线、电源滑橇和前置网络。在120千瓦液冷计算的情况下,在现有设施中部署多个这样的设备很快就会变得棘手。一旦英伟达的600千瓦巨型机架在2027年底首次亮相,情况只会变得更加困难。
这就是黄仁勋一直唠叨的“人工智能工厂”发挥作用的地方——与施耐德电气等合作伙伴共同打造的定制化数据中心,以应对人工智能的电力和热管理需求。
不出所料,就在详细说明其未来三年的GPU路线图后的一周,施耐德宣布在美国投资7亿美元,以扩大生产所有必需的电源和冷却组件。
当然,拥有为这些超高密度系统供电和冷却的必要基础设施并不是唯一的问题。将电力输送到数据中心本身也是个难题,再次,这主要不在英伟达的控制范围内。
尽管我们希望看到核能复兴,但即使是最好的预测也表明小型模块化反应堆的部署要到2030年代才会实现。
深入研究Dynamo,英伟达的AI推理“操作系统”
微软退出数据中心租赁(可能)并不是人工智能热潮消退的迹象
施耐德电气向美国业务注入7亿美元,以应对人工智能数据中心需求激增
英伟达的薇拉·鲁宾CPU和GPU路线图规划了600千瓦高温机架的路径
紧随其后
需要明确的是,这些障碍并非英伟达独有。AMD、英特尔以及每一个争夺英伟达市场份额的云服务提供商和芯片设计师迟早都会遇到这些问题。英伟达只是第一个遇到这些问题的公司。
虽然这肯定有不利之处,但它也让英伟达处于一个独特的位置,可以引领未来数据中心功率与热设计方向。
正如我们之前提到的,黄仁勋愿意透露其下一代三种GPU技术和第四代的初步信息的原因是,这样其基础设施合作伙伴就能在它们最终到来时做好准备。
“我向世界传达了英伟达未来三四年的发展路线图,现在每个人都可以计划了,”黄仁勋表示。
另一方面,这些努力也为竞争芯片制造商铺平了道路。如果英伟达设计了一个120千瓦或现在的600千瓦的机架,并且托管提供商和云运营商愿意支持它,那么AMD或英特尔现在就可以在其自己的机架级平台上装入同样多的计算能力,而不用担忧客户会把它们放在哪里。
(以上内容均由Ai生成)