数据中心AI竞赛:网络技术成胜负关键

发布时间:2025年11月10日    来源:szf
数据中心AI竞赛:网络技术成胜负关键

快速阅读: 人工智能发展推高计算需求,企业需巨额投资AI基础设施。网络性能成关键,以太网挑战InfiniBand主导地位,新技术助力高效数据传输。

人工智能热潮正推动计算能力需求激增,这迫使企业不得不投入数十亿美元用于AI基础设施建设。据黑石集团估计,仅美国的数据中心到本十年末就需要1万亿美元的投资,以跟上需求的步伐。“更大更好的AI需要大量的计算能力。”诺基亚数据中心副总裁迈克·布尚在接受《ITPro》采访时说,“如今,每部署一兆瓦的数据中心容量,网络就是仅次于AI系统本身的第二大预算项目。”

这是因为生成式AI模型依赖于单个数据中心内的数千个图形处理单元(GPU)在节点和机架之间实时共享信息。如果将GPU比作脑细胞,那么网络就是连接它们并发送信号的神经系统。与传统工作负载不同,高带宽、低延迟的结构——即交换机的统一网络——对于实现实时数据传输至关重要。布尚指出,性能和可靠性一直都很重要,但现在它们已成为决定AI投资回报的关键因素。

存储即服务提供商Zadara的首席执行官约拉姆·诺维克警告称:“如果不确保足够的互连带宽,简单地增加更多GPU可能会导致收益递减。”他补充说,网络投资不足会导致“通信瓶颈,使昂贵的计算资源闲置”。

了解AI网络技术的核心在于几种关键技术,主要是以太网、InfiniBand、NVLink和超加速器链接(UALink)。以太网和InfiniBand是连接多台服务器的技术,后者由于其超低延迟和更高带宽,尤其受到大规模AI训练的青睐。根据戴尔奥罗集团的研究,2023年市场主要由InfiniBand主导,占比达80%,但预计不久将被以太网超越。

戴尔奥罗集团预计,今年大多数部署在AI后端网络中的交换机端口将达到800吉比特/秒,2027年达到1.6太比特/秒(Tbps),2029年达到3.2 Tbps。以太网正在挑战InfiniBand的主导地位,首个800吉比特以太网版本已于2024年2月发布,超以太网联盟(UEC)也成立以支持以太网处理更复杂和密集的AI工作负载。UEC的创始成员包括AMD、博通、思科、英特尔、Meta和微软。1.6太比特以太网标准预计明年完成。

简单来说,以太网和InfiniBand主要用于扩展网络,而NVLink和UALink则是为了增强网络设计。例如,HPE的Slingshot网络架构技术专为高性能计算(HPC)和AI计算能力设计,被应用于世界上最快的超级计算机之一,如El Capitan、Frontier和Aurora。新的HPE超级计算机Discovery也将使用Slingshot技术。

NVLink是英伟达的旗舰互连技术,自2014年建立以来,它允许同一服务器内的GPU共享内存和计算。对于更复杂的AI工作负载,英伟达还提供了NVSwitch技术,可以支持多个NVLink连接。去年年底,UEC的一些成员共同成立了UALink联盟,旨在通过新标准挑战NVLink在低延迟、高速通信方面的主导地位。

UALink的首个规格已于今年上半年发布,可支持多达1,024个通过UALink交换机连接的加速器。相比之下,利用最新NVLink技术的NVL72服务器机架可以连接72个Blackwell GPU,最多八个NVL72机架互联时可支持576个GPU。

布尚和诺维克都认为,企业在构建和扩展数据中心时,无论是向上还是向外扩展,都需要在原始计算能力和数据传输能力之间找到平衡。随着AI工作负载从训练转向推理,这种平衡变得尤为重要。

推理是指AI模型处理提示以生成输出、预测或其他所需结果的过程。简而言之,这是指所有实际应用中的生成式AI案例,AI模型真正处理数据,而非新模型的训练。

关于AI训练的计算需求,已有大量报道。这在很大程度上是正确的,因为训练集群需要处理数万亿个包括公开数据和合成数据在内的数据点,以构建前沿大语言模型的核心。

尽管推理集群可能不像训练集群那样处理大量数据,但它们对于支持许多云AI的实际应用场景至关重要,更多关键业务流程将依赖于它们。为了不影响用户体验,这些系统需要极低的延迟来处理工作负载,同时在大量用户发送请求时仍能保持高度可靠性。

据彭博情报分析师称,目前训练占数据中心支出的约60%。但预计到2032年,这一比例将降至20%,因为更多资源将转向推理。随着对推理需求的增长,工作负载不仅会在单个数据中心的集群中运行,还会跨越多个数据中心。

诺维克表示:“推理系统需要与能够处理高并发请求并以最小延迟交付结果的网络架构紧密集成。”布尚补充说,在新的AI基础设施时代,效率不再仅由计算速度定义,而是由网络性能决定。“企业可以通过专门针对AI构建的网络最大化投资回报并获得真正的差异化优势。”他总结道。

(以上内容均由Ai生成)

你可能还想读

人工智能环境成本被夸大,真相如何?

人工智能环境成本被夸大,真相如何?

快速阅读: 社交媒体时代误导信息频发,针对人工智能环境破坏的三大论点被质疑。实际数据显示,AI资源消耗远低于普遍认知,市场机制可应对资源短缺,不应过分担忧AI环境影响。 社交媒体时代使得传播误解和误导信息变得前所未有的容易。错误的论点似乎像 […]

发布时间:2025年11月10日
百度AI技术引领新潮流,股价年内大涨超53%

百度AI技术引领新潮流,股价年内大涨超53%

快速阅读: 百度股价今年上涨53%,得益于AI技术和自动驾驶出租车发展。公司推出Nova数字人直播技术,增强推理能力,展现未来潜力。 百度(NASDAQ:BIDU)是另一颗快速崛起的人工智能新星,今年以来股价上涨超过53%,主要得益于人工智 […]

发布时间:2025年11月10日
英国AI监管不足,民众权利难保障

英国AI监管不足,民众权利难保障

快速阅读: 证人讨论英国AI监管需制定行业规则,强调公众参与和“共同创造”。大卫·莱斯利呼吁赋权公众,奈克指出法律救济机制缺失,建议扩大法律援助。 证人还详细讨论了英国有效AI监管所需的具体措施,这包括制定针对特定行业的规则,以应对技术在高 […]

发布时间:2025年11月10日
AI数据中心网络重要性超越计算力

AI数据中心网络重要性超越计算力

快速阅读: 人工智能热潮推动计算能力需求激增,企业需投资数亿美元建设数据中心。网络性能成关键,以太网和InfiniBand主导市场,未来将以太网为主。AI从训练转向推理,需平衡计算与数据传输能力。 人工智能热潮正在推动对计算能力的高需求,这 […]

发布时间:2025年11月10日
OpenAI考虑开发健康助手,拓展AI业务范围

OpenAI考虑开发健康助手,拓展AI业务范围

快速阅读: OpenAI考虑开发基于AI的个人健康助手,拓展核心业务。此前,谷歌、亚马逊和微软的类似尝试因用户参与度低而失败。OpenAI已聘请医疗和科技行业资深人士领导该项目。 据《商业内幕》周一报道,OpenAI 正考虑开发消费者健康产 […]

发布时间:2025年11月10日
企业IT改革:构建面向代理AI时代的架构

企业IT改革:构建面向代理AI时代的架构

快速阅读: Ritu Jyoti现任隐形AI初创公司CEO,曾任职IDC AI与数据部门总经理/副总裁,获James Peacock Memorial奖,拥有25年高科技行业经验,致力于AI责任发展与创新。 Ritu Jyoti 目前担任一 […]

发布时间:2025年11月10日
苹果与谷歌合作升级Siri,打造健康AI聊天机器人

苹果与谷歌合作升级Siri,打造健康AI聊天机器人

快速阅读: 苹果与谷歌合作开发1.2万亿参数的Gemini AI模型,用于提升Siri体验,年费约10亿美元。苹果内部称此模型为AFM v10,避免公开合作以防混淆,同时正自主研发1.0万亿参数模型。 据古尔曼先前的报道,苹果与谷歌合作,后 […]

发布时间:2025年11月10日
富士康计划六个月内部署人形机器人生产Nvidia服务器

富士康计划六个月内部署人形机器人生产Nvidia服务器

快速阅读: 富士康计划未来六个月内使用人形机器人生产英伟达服务器,首次尝试提高生产效率。此举将在休斯顿智能工厂展开,可能面临技术与安全挑战。 制造巨头富士康表示,计划在未来六个月内使用人形机器人生产英伟达的服务器,据富士康董事长刘扬伟透露。 […]

发布时间:2025年11月10日