数据中心AI竞赛:网络技术成胜负关键
快速阅读: 人工智能发展推高计算需求,企业需巨额投资AI基础设施。网络性能成关键,以太网挑战InfiniBand主导地位,新技术助力高效数据传输。
人工智能热潮正推动计算能力需求激增,这迫使企业不得不投入数十亿美元用于AI基础设施建设。据黑石集团估计,仅美国的数据中心到本十年末就需要1万亿美元的投资,以跟上需求的步伐。“更大更好的AI需要大量的计算能力。”诺基亚数据中心副总裁迈克·布尚在接受《ITPro》采访时说,“如今,每部署一兆瓦的数据中心容量,网络就是仅次于AI系统本身的第二大预算项目。”
这是因为生成式AI模型依赖于单个数据中心内的数千个图形处理单元(GPU)在节点和机架之间实时共享信息。如果将GPU比作脑细胞,那么网络就是连接它们并发送信号的神经系统。与传统工作负载不同,高带宽、低延迟的结构——即交换机的统一网络——对于实现实时数据传输至关重要。布尚指出,性能和可靠性一直都很重要,但现在它们已成为决定AI投资回报的关键因素。
存储即服务提供商Zadara的首席执行官约拉姆·诺维克警告称:“如果不确保足够的互连带宽,简单地增加更多GPU可能会导致收益递减。”他补充说,网络投资不足会导致“通信瓶颈,使昂贵的计算资源闲置”。
了解AI网络技术的核心在于几种关键技术,主要是以太网、InfiniBand、NVLink和超加速器链接(UALink)。以太网和InfiniBand是连接多台服务器的技术,后者由于其超低延迟和更高带宽,尤其受到大规模AI训练的青睐。根据戴尔奥罗集团的研究,2023年市场主要由InfiniBand主导,占比达80%,但预计不久将被以太网超越。
戴尔奥罗集团预计,今年大多数部署在AI后端网络中的交换机端口将达到800吉比特/秒,2027年达到1.6太比特/秒(Tbps),2029年达到3.2 Tbps。以太网正在挑战InfiniBand的主导地位,首个800吉比特以太网版本已于2024年2月发布,超以太网联盟(UEC)也成立以支持以太网处理更复杂和密集的AI工作负载。UEC的创始成员包括AMD、博通、思科、英特尔、Meta和微软。1.6太比特以太网标准预计明年完成。
简单来说,以太网和InfiniBand主要用于扩展网络,而NVLink和UALink则是为了增强网络设计。例如,HPE的Slingshot网络架构技术专为高性能计算(HPC)和AI计算能力设计,被应用于世界上最快的超级计算机之一,如El Capitan、Frontier和Aurora。新的HPE超级计算机Discovery也将使用Slingshot技术。
NVLink是英伟达的旗舰互连技术,自2014年建立以来,它允许同一服务器内的GPU共享内存和计算。对于更复杂的AI工作负载,英伟达还提供了NVSwitch技术,可以支持多个NVLink连接。去年年底,UEC的一些成员共同成立了UALink联盟,旨在通过新标准挑战NVLink在低延迟、高速通信方面的主导地位。
UALink的首个规格已于今年上半年发布,可支持多达1,024个通过UALink交换机连接的加速器。相比之下,利用最新NVLink技术的NVL72服务器机架可以连接72个Blackwell GPU,最多八个NVL72机架互联时可支持576个GPU。
布尚和诺维克都认为,企业在构建和扩展数据中心时,无论是向上还是向外扩展,都需要在原始计算能力和数据传输能力之间找到平衡。随着AI工作负载从训练转向推理,这种平衡变得尤为重要。
推理是指AI模型处理提示以生成输出、预测或其他所需结果的过程。简而言之,这是指所有实际应用中的生成式AI案例,AI模型真正处理数据,而非新模型的训练。
关于AI训练的计算需求,已有大量报道。这在很大程度上是正确的,因为训练集群需要处理数万亿个包括公开数据和合成数据在内的数据点,以构建前沿大语言模型的核心。
尽管推理集群可能不像训练集群那样处理大量数据,但它们对于支持许多云AI的实际应用场景至关重要,更多关键业务流程将依赖于它们。为了不影响用户体验,这些系统需要极低的延迟来处理工作负载,同时在大量用户发送请求时仍能保持高度可靠性。
据彭博情报分析师称,目前训练占数据中心支出的约60%。但预计到2032年,这一比例将降至20%,因为更多资源将转向推理。随着对推理需求的增长,工作负载不仅会在单个数据中心的集群中运行,还会跨越多个数据中心。
诺维克表示:“推理系统需要与能够处理高并发请求并以最小延迟交付结果的网络架构紧密集成。”布尚补充说,在新的AI基础设施时代,效率不再仅由计算速度定义,而是由网络性能决定。“企业可以通过专门针对AI构建的网络最大化投资回报并获得真正的差异化优势。”他总结道。
(以上内容均由Ai生成)