网络确实在试图成为计算机
快速阅读: 据《The Register》称,摩尔定律接近极限,AI需高带宽内存与并行计算,网络成本被隐藏。NVIDIA InfiniBand收入激增,AI系统占服务器支出一半,网络成本或达30%。
摩尔定律已接近极限,AI工作负载需要大量的并行计算和高带宽内存,而这两项技术如今都变得极其昂贵。如果不是这种情况,全球的财务管理人员可能会抱怨数据中心的网络成本。但幸运的是——我们姑且这么说——在这些现代系统中,一些网络成本被掩盖成了计算成本。想想那些扩展网络(如NVLink端口和NVLink交换结构),它们是GPU加速服务器节点的一部分——或者,如今,像DGX NVL72及其OEM和ODM克隆这样的机架级系统。这些内存共享网络对于不断扩大的AI训练和推理工作负载至关重要。随着参数数量和令牌吞吐量需求的上升,它们需要更大的内存域来完成工作。再加上专家模型的混合以及对更大、更宽和更快的扩展网络(现在称为)的需求,即使是只有70亿参数的AI模型也能察觉到这一点。
但自2016年NVIDIA首次推出“Pascal”P100 GPU加速器以来,DGX服务器节点及其HGX克隆中的NVLink结构的成本一直被掩盖。NVIDIA实际上并不会单独出售其SXM插槽版本的GPU加速器,而是将其嵌入到HGX或现在的MGX系统板上,以连接GPU内存。
另一个即将进入AI系统的被掩盖的网络成本是用于GPU插槽内部的芯片间和芯片到芯片互连,用于连接晶圆尺寸的GPU小芯片(NVIDIA的情况)或更小的计算单元(AMD的情况)。你可能在问为什么你必须花这么多钱购买NVIDIA的GPU加速器来进行AI或HPC工作,而这种插槽内的NVLink C2C和D2D互连正是其中的原因之一。
正在进行的工作
公平地说,很多硬件成本是为了支持NVIDIA每天75%员工从事的巨大软件开发工作。NVIDIA是一家依靠捆绑CUDA-X软件来维持运营的硬件公司,该软件随硬件“免费”提供。然而,它确实每年每块GPU收取4500美元的AI企业套件费用,因此,“大绿”公司正逐步从其硬件中获取软件收入。
然后还有扩展网络,用于在分布式系统中将节点相互连接,以比扩展网络提供的更松散的方式共享工作。这正是我们在分布式HPC系统中所熟悉的常规网络,通常是Ethernet或InfiniBand,有时也是像Cray、SGI、Fujitsu、NEC等过去使用的专有网络。
除此之外,我们还有正常的南北向网络堆栈,允许人们连接到系统,以及东西向网络,允许运行数据库、网络基础设施和其他前台系统的分布式企业系统之间进行通信。更远一点,有“数据中心互联”(DCI),用于将数据中心连接成区域,以及超大规模企业和云构建商使用的光纤网络,用于连接全球各地的区域。
总之,有很多网络在运作。到底有多少很难说。我们还没有看到有人很好地描述它。
传统观点认为,超大规模企业和云构建商不喜欢在数据中心预算中花费超过10%用于网络,当早期采用100 Gbps以太网时,成本接近15%,因为太热且太贵,Arista Networks、Broadcom、Google、Mellanox Technologies(现为NVIDIA的一部分)和Microsoft于2014年7月联合起来,基于更快的信号传输速率和更少的每端口通道数,制定了一种更优的100 Gbps标准,并基本上迫使IEEE采用它。这使得网络成本重新回落至10%以下。
然后AI出现了,最近GenAI也出现了。可见的扩展网络成本一直在飙升。很难说具体增加了多少,但我们制作了一张图表来展示:
| 年份 | Gartner数据中心系统(亿美元) | 增长率 | IDC数据中心以太网交换机收入(亿美元) | 增长率 | TNP NVIDIA InfiniBand交换机收入(亿美元) | 增长率 | 以太网+InfiniBand交换机收入(亿美元) | 以太网+InfiniBand交换机在系统中的份额 |
|——|—————————–|——–|————————————-|——–|—————————————-|——–|————————————|—————————-|
| 2020 | 1786 | – | 122 | – | 7 | – | 129 | 7.2% |
| 2021 | 1907 | 6.3% | 133 | 8.6% | 9 | 23.3% | 142 | 7.5% |
| 2022 | 2271 | 16.0% | 159 | 16.3% | 13 | 26.8% | 172 | 7.6% |
| 2023 | 2361 | 3.8% | 180 | 11.9% | 520 | 75.4% | 232 | 9.8% |
| 2024 | 3291 | 16.0% | 207 | 13.1% | 580 | 10.6% | 266 | 8.1% |
显然,根据各种市场研究机构的数据,2024年AI系统约占总服务器支出的一半,整体数据中心系统市场——即服务器、交换机和存储的总和——已经爆炸式增长。根据Gartner的数据,系统销售在2020年至2024年间增长了1.84倍,IDC表示数据中心以太网交换机销售几乎同步增长,同期增长了1.71倍。我们已将NVIDIA的网络销售按日历时间进行了调整(他们的财年比现实时间晚一个月),并估计了同一时期其InfiniBand交换机的销售情况。InfiniBand收入在上述五年中增长了8倍以上。这几乎完全归因于AI规模扩展网络。(那里也有一点HPC。)
显然,根据各种市场研究机构的数据,2024年AI系统约占总服务器支出的一半,整体数据中心系统市场——即服务器、交换机和存储的总和——已经爆炸式增长。上面未提取的其他网络包括用于存储区域网络的光纤通道网络——是的,企业仍在做这类事情——以及任何专有的HPC系统网络。这项分析也不包括DPUs的成本,这些DPUs正在为云平台添加安全性和多租户功能,以及在云端和本地的AI系统中发挥重要作用。这些DPUs还承担了大量任务,包括在数据包被分散到集群所有链路后进行重新组装。未来,DPUs可能位于服务器节点或交换机中——甚至同时存在于两者中。而且它们并不便宜,但应被视为交换基础设施的延伸,而不是从服务器卸载的任务。SmartNIC未能取得预期成效,但AI可能会改变这一点。
机架规模网络是大规模AI训练和推理工作的新兴趋势。PCIe 7.0规格最终确定,带宽达到512 GBps,PCIe 8.0正在开发中。Omni-Path再次出现在AI和HPC领域中,作为对NVIDIA InfiniBand的新挑战。鉴于所有这些,当正确分配时,网络在整体成本中很可能超过系统成本的10%,甚至可能高于人们谈论的机架规模AI系统的20%。综合来看,网络以多种形式可能实际上占AI集群真实成本的30%。因此,AMD和反对阵营正在打造Infinity Fabric和UALink的类似NVLink和NVSwitch的产品,以给AI系统领域带来一些竞争压力。此外,每个人都认为InfiniBand的时代即将结束,一旦Ultra Ethernet标准被纳入产品中,可能从2025年底开始用于商业系统,2026年推出。这将为AI系统的规模扩展和横向扩展网络带来竞争,理论上会将真正的网络成本重新压低到20%以下。
(以上内容均由Ai生成)