网络确实在试图成为计算机

发布时间:2025年6月27日    来源:szf
网络确实在试图成为计算机

快速阅读: 据《The Register》称,摩尔定律接近极限,AI需高带宽内存与并行计算,网络成本被隐藏。NVIDIA InfiniBand收入激增,AI系统占服务器支出一半,网络成本或达30%。

摩尔定律已接近极限,AI工作负载需要大量的并行计算和高带宽内存,而这两项技术如今都变得极其昂贵。如果不是这种情况,全球的财务管理人员可能会抱怨数据中心的网络成本。但幸运的是——我们姑且这么说——在这些现代系统中,一些网络成本被掩盖成了计算成本。想想那些扩展网络(如NVLink端口和NVLink交换结构),它们是GPU加速服务器节点的一部分——或者,如今,像DGX NVL72及其OEM和ODM克隆这样的机架级系统。这些内存共享网络对于不断扩大的AI训练和推理工作负载至关重要。随着参数数量和令牌吞吐量需求的上升,它们需要更大的内存域来完成工作。再加上专家模型的混合以及对更大、更宽和更快的扩展网络(现在称为)的需求,即使是只有70亿参数的AI模型也能察觉到这一点。

但自2016年NVIDIA首次推出“Pascal”P100 GPU加速器以来,DGX服务器节点及其HGX克隆中的NVLink结构的成本一直被掩盖。NVIDIA实际上并不会单独出售其SXM插槽版本的GPU加速器,而是将其嵌入到HGX或现在的MGX系统板上,以连接GPU内存。

另一个即将进入AI系统的被掩盖的网络成本是用于GPU插槽内部的芯片间和芯片到芯片互连,用于连接晶圆尺寸的GPU小芯片(NVIDIA的情况)或更小的计算单元(AMD的情况)。你可能在问为什么你必须花这么多钱购买NVIDIA的GPU加速器来进行AI或HPC工作,而这种插槽内的NVLink C2C和D2D互连正是其中的原因之一。

正在进行的工作

公平地说,很多硬件成本是为了支持NVIDIA每天75%员工从事的巨大软件开发工作。NVIDIA是一家依靠捆绑CUDA-X软件来维持运营的硬件公司,该软件随硬件“免费”提供。然而,它确实每年每块GPU收取4500美元的AI企业套件费用,因此,“大绿”公司正逐步从其硬件中获取软件收入。

然后还有扩展网络,用于在分布式系统中将节点相互连接,以比扩展网络提供的更松散的方式共享工作。这正是我们在分布式HPC系统中所熟悉的常规网络,通常是Ethernet或InfiniBand,有时也是像Cray、SGI、Fujitsu、NEC等过去使用的专有网络。

除此之外,我们还有正常的南北向网络堆栈,允许人们连接到系统,以及东西向网络,允许运行数据库、网络基础设施和其他前台系统的分布式企业系统之间进行通信。更远一点,有“数据中心互联”(DCI),用于将数据中心连接成区域,以及超大规模企业和云构建商使用的光纤网络,用于连接全球各地的区域。

总之,有很多网络在运作。到底有多少很难说。我们还没有看到有人很好地描述它。

传统观点认为,超大规模企业和云构建商不喜欢在数据中心预算中花费超过10%用于网络,当早期采用100 Gbps以太网时,成本接近15%,因为太热且太贵,Arista Networks、Broadcom、Google、Mellanox Technologies(现为NVIDIA的一部分)和Microsoft于2014年7月联合起来,基于更快的信号传输速率和更少的每端口通道数,制定了一种更优的100 Gbps标准,并基本上迫使IEEE采用它。这使得网络成本重新回落至10%以下。

然后AI出现了,最近GenAI也出现了。可见的扩展网络成本一直在飙升。很难说具体增加了多少,但我们制作了一张图表来展示:

| 年份 | Gartner数据中心系统(亿美元) | 增长率 | IDC数据中心以太网交换机收入(亿美元) | 增长率 | TNP NVIDIA InfiniBand交换机收入(亿美元) | 增长率 | 以太网+InfiniBand交换机收入(亿美元) | 以太网+InfiniBand交换机在系统中的份额 |
|——|—————————–|——–|————————————-|——–|—————————————-|——–|————————————|—————————-|
| 2020 | 1786 | – | 122 | – | 7 | – | 129 | 7.2% |
| 2021 | 1907 | 6.3% | 133 | 8.6% | 9 | 23.3% | 142 | 7.5% |
| 2022 | 2271 | 16.0% | 159 | 16.3% | 13 | 26.8% | 172 | 7.6% |
| 2023 | 2361 | 3.8% | 180 | 11.9% | 520 | 75.4% | 232 | 9.8% |
| 2024 | 3291 | 16.0% | 207 | 13.1% | 580 | 10.6% | 266 | 8.1% |

显然,根据各种市场研究机构的数据,2024年AI系统约占总服务器支出的一半,整体数据中心系统市场——即服务器、交换机和存储的总和——已经爆炸式增长。根据Gartner的数据,系统销售在2020年至2024年间增长了1.84倍,IDC表示数据中心以太网交换机销售几乎同步增长,同期增长了1.71倍。我们已将NVIDIA的网络销售按日历时间进行了调整(他们的财年比现实时间晚一个月),并估计了同一时期其InfiniBand交换机的销售情况。InfiniBand收入在上述五年中增长了8倍以上。这几乎完全归因于AI规模扩展网络。(那里也有一点HPC。)

显然,根据各种市场研究机构的数据,2024年AI系统约占总服务器支出的一半,整体数据中心系统市场——即服务器、交换机和存储的总和——已经爆炸式增长。上面未提取的其他网络包括用于存储区域网络的光纤通道网络——是的,企业仍在做这类事情——以及任何专有的HPC系统网络。这项分析也不包括DPUs的成本,这些DPUs正在为云平台添加安全性和多租户功能,以及在云端和本地的AI系统中发挥重要作用。这些DPUs还承担了大量任务,包括在数据包被分散到集群所有链路后进行重新组装。未来,DPUs可能位于服务器节点或交换机中——甚至同时存在于两者中。而且它们并不便宜,但应被视为交换基础设施的延伸,而不是从服务器卸载的任务。SmartNIC未能取得预期成效,但AI可能会改变这一点。

机架规模网络是大规模AI训练和推理工作的新兴趋势。PCIe 7.0规格最终确定,带宽达到512 GBps,PCIe 8.0正在开发中。Omni-Path再次出现在AI和HPC领域中,作为对NVIDIA InfiniBand的新挑战。鉴于所有这些,当正确分配时,网络在整体成本中很可能超过系统成本的10%,甚至可能高于人们谈论的机架规模AI系统的20%。综合来看,网络以多种形式可能实际上占AI集群真实成本的30%。因此,AMD和反对阵营正在打造Infinity Fabric和UALink的类似NVLink和NVSwitch的产品,以给AI系统领域带来一些竞争压力。此外,每个人都认为InfiniBand的时代即将结束,一旦Ultra Ethernet标准被纳入产品中,可能从2025年底开始用于商业系统,2026年推出。这将为AI系统的规模扩展和横向扩展网络带来竞争,理论上会将真正的网络成本重新压低到20%以下。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日