机架级网络是大规模 AI 训练和推理工作负载的新热点

快速阅读: 《The Register》消息，NVIDIA、AMD和英特尔推出机架级架构，提升AI性能。这些系统采用高带宽互连技术，如NVLink和UALink，实现GPU高效互联。尽管成本高昂，但能支持大规模模型训练与推理。

如果你觉得人工智能网络还不够复杂，NVIDIA、AMD以及即将跟进的英特尔推出的机架级架构又引入了新的复杂性。与通常使用以太网或InfiniBand的横向扩展网络相比，这些系统核心的纵向扩展结构往往采用专有技术，或者至少是新兴的互连技术，这些技术为每个加速器提供了几个数量级更高的带宽。例如，NVIDIA的第五代NVLink互连技术提供的聚合带宽比目前的以太网或InfiniBand高出9到18倍。这种带宽意味着即使GPU计算和内存物理上分布在多个不同的服务器上，它们也可以被池化。NVIDIA首席执行官黄仁勋在称之为“一个巨大的GPU”时并非开玩笑。这些机架级架构的转变在很大程度上是由模型构建者（如OpenAI和Meta）的需求推动的，它们主要针对超大规模云提供商、像CoreWeave或Lambda这样的新云运营商以及需要将AI工作负载保留在本地的企业。鉴于这一目标市场，这些设备价格昂贵。我们的兄弟网站The Next Platform估计，单个NVL72机架的成本为350万美元。明确地说，使这些机架级架构成为可能的纵向扩展结构并非全新。只是到目前为止，它们很少超出单个节点，并且通常最多只有八个GPU。例如，这里是AMD最新宣布的MI350系列系统中发现的纵向扩展结构。AMD的MI350系列GPU采用了一种相对标准的配置，配有八个GPU，与之对应的也是八个400Gbps的NIC和一对x86 CPU – 点击放大如你所见，每个芯片与其他七个芯片连接成全互连拓扑。NVIDIA的HGX设计对于其四个GPU的H100系统采用了相同的通用模板，但为其更常见的八个GPU节点增加了四个NVLink交换机。虽然NVIDIA表示这些交换机可以减少通信延迟，但也增加了复杂性。而不是像我们在AMD的8-GPU节点中看到的全互连网格，NVIDIA的HGX架构自Volta架构以来就使用NVLink交换机来连接其GPU – 点击放大NVIDIA的HGX设计对于其四个GPU的H100系统采用了相同的通用模板，但为其更常见的八个GPU节点增加了四个NVLink交换机。虽然NVIDIA表示这些交换机可以减少通信延迟，但也增加了复杂性。随着向机架规模的过渡，这种基本拓扑结构只是被简单地扩展了——至少对于NVIDIA的NVL系统而言。对于AMD来说，全互连网格显然不够，交换机变得不可避免。深入探讨NVIDIA的NVL72纵向扩展架构我们稍后会详细讨论Zen之家的Helios机架，但首先让我们看看NVIDIA的NVL72。由于它在市场上已经有一段时间，我们对它的了解要多得多。作为快速回顾，该机架规模系统配备了72个Blackwell GPU，分布在18个计算节点中。所有这些GPU通过9个刀片上的18个7.2TB/s NVLink 5交换芯片进行连接。据我们了解，每个交换ASIC拥有72个端口，每个端口具备800Gbps或100GB/s的双向带宽。同时，NVIDIA的Blackwell GPU拥有1.8TB/s的总带宽，分布在18个端口上——每个交换机对应一个端口。结果形成了一种类似下图的拓扑结构：机架中的每个GPU连接到机架中九个NVLink 5交换机中的两个NVLink端口。- 点击放大这种高速全互连互连结构意味着机架中的任何GPU都可以访问另一个GPU的内存。为什么进行纵向扩展？根据NVIDIA的说法，这些大规模计算域提升了GPU的运行效率。对于AI训练任务，这家GPU巨头估计其GB200 NVL72系统的性能是同等数量H100的四倍，尽管组件芯片在同一精度下的性能只提高了2.5倍。同时，对于推理，NVIDIA表示其机架规模配置的速度可达30倍——部分原因是各种程度的数据、流水线、张量和专家并行性可以利用所有的内存带宽，即使模型未必能充分利用全部内存容量或计算能力。不过，NVIDIA基于Grace-Blackwell的机架中VRAM在13.5TB到20TB之间，而AMD即将推出的Helios机架大约有30TB，这些系统显然是为了服务非常大的模型，比如Meta（显然）延迟的两万亿参数Llama 4 Behemoth，该模型在BF16下运行需要4TB的内存。不仅模型变大了，上下文窗口（你可以将其视为LLM的短期记忆）也随之增大。例如，Meta的Llama 4 Scout参数量并不算大，只有1090亿个参数——在BF16下只需218GB的GPU内存即可运行。然而，其1000万token的上下文窗口将需要数倍于这个数值，尤其是在较大的批量尺寸下。（我们在我们的指南中讨论了LLM的内存需求，详见此处。）推测AMD的第一款纵向扩展系统Helios这无疑就是为什么AMD也采用了机架级架构，使用其MI400系列加速器。在本月早些时候的Advancing AI活动中，AMD发布了其Helios参考设计。简而言之，该系统将于明年推出，并配备72个MI400系列加速器、18个EPYC Venice CPU和AMD的Pensando Vulcano NICs。这无疑就是为什么AMD也采用了机架级架构，使用其MI400系列加速器。关于该系统的细节仍然很少，但我们知道其纵向扩展结构将提供260TB/s的总带宽，并通过以太网实现对新兴UALink的传输。如果你不熟悉的话，新兴的Ultra Accelerator Link标准是用于纵向扩展网络的开放替代方案。Ultra Accelerator Link联盟于四月份发布了其首份规范。每块GPU约有3.6TB/s的双向带宽，这将使Helios与NVIDIA的首款Vera-Rubin机架系统相媲美，后者也将在明年推出。AMD将如何实现这一点，我们只能推测——因此我们进行了推测。AMD Helios系统不会完全适合标准的19英寸机架 – 点击放大根据我们从AMD主题演讲中看到的情况，系统机架似乎包含五个交换机刀片，每个刀片上配有两个ASIC。每个机架有72个GPU，这种配置看起来有点奇怪。最简单的解释是，尽管有五个交换机刀片，但实际上只有九个交换ASIC。为实现这一目标，每个交换芯片需要144个800Gbps端口。这对于以太网来说略显异常，但与NVIDIA在其NVLink 5交换机中所做的相似，只不过使用了两倍的ASIC，带宽减半。这将形成一个与NVIDIA的NVL72非常相似的拓扑结构。AMD连接72个GPU的最简单方式是使用九个144端口的800Gbps交换机。- 点击放大棘手的是，据我们所知，目前没有这样的交换ASIC能够提供如此高的带宽。我们几周前深入研究过的Broadcom Tomahawk 6是最接近的，最多有128个800Gbps端口和102.4Tbps的总带宽。记录一下，我们不知道AMD是否在Helios中使用Broadcom——只是它恰好是少数几个公开披露的非NVIDIA的102.4Tbps交换机之一。但即使将10个这样的芯片塞进Helios，你仍需要另外16个800Gbps以太网端口才能达到AMD声称的260TB/s带宽。那怎么办呢？我们最好的猜测是，Helios使用了与NVIDIA的NVL72不同的拓扑结构。在NVIDIA的机架级架构中，GPU通过NVLink交换机相互连接。然而，看起来AMD的Helios计算刀片将保留MI300系列的芯片到芯片网格，尽管每个GPU与其他三个GPU之间有三条网格链接。假设AMD MI400系列GPU在节点中保留其芯片到芯片网格，那么10个交换机的纵向扩展结构开始变得更有意义。- 点击放大当然，这些都是推测，但数字相当吻合。然而，看起来AMD的Helios计算刀片将保留MI300系列的芯片到芯片网格，尽管每个GPU与其他三个GPU之间有三条网格链接。据我们估计，每个GPU将分配600GB/s（12个200Gbps链路）的双向带宽用于节点内网格，约3TB/s的带宽（60个200Gbps链路）用于扩展网络。这相当于每个交换机刀片约600GB/s的带宽。随着每个计算刀片中的四个GPU相互连接，扩展拓扑结构将如下所示。- 点击放大如果你觉得端口数量很多，我们预计每个计算刀片将聚合为约60个800Gbps端口，甚至可能达到30个1.6Tbps端口。这与英特尔在Gaudi3系统中的做法有些相似。据我们了解，实际布线将集成到盲接背板中，与NVIDIA的NVL72系统类似。因此，如果你担心需要手动连接机架，可以放心了。我们可以看到这种方法的一些优势。如果我们的推测正确，每个Helios计算刀片将独立运行。而另一方面，NVIDIA有一个名为GB200 NVL4的单独SKU，专门针对HPC应用，它将四个Blackwell GPU连接在一起，类似于上面的图表，但不支持使用NVLink进行扩展。但再次强调，这并不一定是AMD的做法——这只是我们的最佳猜测。扩展并不意味着停止扩展你可能会认为，由AMD和NVIDIA的机架规模架构所启用的更大的计算域意味着以太网、InfiniBand或OmniPath——是的，它们又回来了！——会退居其次。实际上，这些扩展网络无法超越机架范围。NVIDIA的NVL72系统和据推测AMD的Helios系统中使用的铜质飞桥电缆根本无法达到那么远的距离。正如我们之前所探讨的，硅光子学有可能改变这一点，但这项技术在集成方面也面临自己的挑战。我们不认为NVIDIA会主动追求600kW的机架，而是因为其预计相关光子技术无法及时成熟以支持扩展网络脱离机架。因此，如果你需要超过72个GPU——而且如果你进行任何形式的训练，你肯定需要——你仍然需要一个扩展网络。事实上，你需要两个。一个用于后端计算协调，一个用于前端数据输入。机架规模似乎并没有减少所需的扩展带宽量。至少对于NVL72而言，NVIDIA本代仍维持了NIC与GPU的1:1比例。通常每个刀片还有另外两个NIC或数据处理单元（DPU）端口用于传统前端网络，用于数据的输入和输出等。这对于训练是有意义的，但如果您的工作负载可以容纳在一个单一的72-GPU计算和内存域中，对于推理而言可能并不是绝对必要的。剧透提示：除非你运行的是某些未知细节的巨大专有模型，否则你很可能可以做到。 Omni-Path重返AI和HPC领域，成为对NVIDIA InfiniBand的新挑战 Broadcom推出102.4T光子交换机，旨在挑战NVIDIA的AI网络帝国 HPE Aruba宣称，当网络出现问题时，其AI能够迅速应对机架规模正在兴起，但目前还并非人人适用…… 好消息是未来六到十二个月内，我们将看到一些高radix交换机上市。我们之前已提及Broadcom的Tomahawk 6，它将支持64个1.6Tbps端口至1,024个100Gbps端口。但还有NVIDIA的Spectrum-X SN6810将于明年推出，它将提供多达128个800Gbps端口，并将使用硅光子学来实现。而NVIDIA的SN6800则将配备512个MPO端口，每个端口支持800Gbps。这些交换机大大减少了大规模AI部署所需的交换机数量。要连接一个128,000个GPU的集群，以400Gbps的速度，你需要大约10,000个Quantum-2 InfiniBand交换机。选择51.2Tbps以太网交换机可以将这个数量减半。获取我们的技术资源

(以上内容均由Ai生成)