AI数据中心网络重要性超越计算力
快速阅读: 人工智能热潮推动计算能力需求激增,企业需投资数亿美元建设数据中心。网络性能成关键,以太网和InfiniBand主导市场,未来将以太网为主。AI从训练转向推理,需平衡计算与数据传输能力。
人工智能热潮正在推动对计算能力的高需求,这迫使企业不得不花费数十亿美元投资于人工智能基础设施。据黑石集团估计,仅美国的数据中心到本世纪末就需要1万亿美元的投资以跟上需求的增长。“更大更好的人工智能需要大量的计算能力,”诺基亚数据中心副总裁迈克·布尚在接受《ITPro》采访时说,“目前,每部署一兆瓦的数据中心容量,网络就是仅次于人工智能系统本身的第二大预算项目。”
这是因为生成式人工智能模型依赖于单个数据中心内的数千个图形处理单元(GPU)在节点和机架之间实时共享信息。如果将GPU比作脑细胞,那么网络就像是连接它们的神经系统,通过发送信号来实现互联。与传统工作负载不同,高性能、低延迟的统一交换网络对于实现实时数据传输至关重要。布尚指出,性能和可靠性一直很重要,但现在它们已成为决定人工智能投资回报的关键因素。
存储即服务提供商Zadara的首席执行官尤拉姆·诺维克警告称,“仅仅增加更多的GPU而不确保足够的互连带宽会导致收益递减。”他补充说,对网络的投资不足会引发“通信瓶颈,导致昂贵的计算资源闲置”。
了解网络技术
在人工智能网络的核心是几种关键技术,主要是以太网、InfiniBand、NVLink和超加速器链接(UALink)。以太网和InfiniBand用于连接多台服务器,后者因超低延迟和更高带宽而成为大规模人工智能训练的首选技术。据戴尔奥罗集团的研究显示,2023年市场主要由InfiniBand主导,占80%的市场份额,但预计不久的将来会被以太网超越。
戴尔奥罗集团预计,今年大多数部署在人工智能后端网络中的交换端口将达到800吉比特/秒,2027年达到1.6太比特/秒(Tbps),2029年达到3.2 Tbps。以太网正在挑战InfiniBand的主导地位。首个800吉比特以太网版本于2024年2月发布,而超以太网联盟(UEC)的成立旨在使以太网能够支持更复杂和密集的人工智能工作负载。UEC的创始成员包括AMD、博通、思科、英特尔、Meta和微软。1.6太比特以太网标准预计明年完成。
简单来说,以太网和InfiniBand主要用于扩展网络,而NVLink和UALink则设计用于增强网络。例如,HPE的Slingshot是一种专为高性能计算(HPC)和人工智能计算能力设计的网络架构技术,被应用于世界上最快的超级计算机,如El Capitan、Frontier和Aurora。新的HPE超级计算机Discovery也将使用Slingshot。
NVLink是英伟达的旗舰互连技术,自2014年推出以来,它使得同一服务器内的GPU可以共享内存和计算资源。对于更苛刻的人工智能工作负载,英伟达还提供了NVSwitch技术,可支持多个NVLink连接。去年底,UEC的一些成员成立了UALink联盟,目标是通过新的低延迟、高速通信标准挑战NVLink的主导地位。今年上半年发布了首个UALink规范,可支持最多1,024个通过UALink交换机连接的加速器。相比之下,利用最新NVLink技术的NVL72服务器机架可以连接72个Blackwell GPU,当最多八个NVL72机架互连时,可支持高达576个GPU。
从训练转向推理的过程也在不断推进。
布什宏和诺维克都认为,企业在构建和扩展数据中心时——无论是向上还是向外扩展——需要在原始计算能力和数据传输能力之间找到平衡。随着AI工作负载从训练转向推理,这种平衡变得越来越重要。
推理是指AI模型处理提示以生成输出、预测或其他期望结果的过程。简而言之,它涵盖了所有实际应用中的生成式AI案例,其中AI模型真正处理数据,而不是训练新模型。
关于AI训练的计算需求已经有很多讨论。这在很大程度上是真实的,因为训练集群会处理数万亿个令牌,包括公开数据和合成数据,以形成前沿大语言模型的基础。
尽管推理集群可能不需要处理大量数据,但由于它们支持许多云AI的实际应用场景,因此对于关键业务流程来说具有更大的潜力。为了不影响用户体验,这些集群需要极低的延迟来处理工作负载,同时在大量用户发送请求时仍能保持高度可靠性。
据彭博情报分析师称,目前训练约占数据中心支出的60%。然而,预计到2032年,这一比例将降至20%,因为更多的资源将转向推理。随着对推理需求的增长,工作负载不仅将在单个数据中心内的集群中运行,还会跨多个数据中心运行。
“推理系统需要与能够处理高并发请求并以最小延迟交付结果的网络架构紧密集成。”诺维克表示。
布什宏补充说,在新的AI基础设施时代,效率不仅由计算速度定义,还取决于网络性能。“通过构建专门为AI设计的网络,企业可以最大化投资回报并获得真正的差异化优势。”他总结道。
(以上内容均由Ai生成)