微软公布AI超级工厂,连接两地数据中心加速模型训练
快速阅读: 微软建立首个AI超级工厂,连接威斯康星州和亚特兰大AI数据中心,采用专用光纤网络和液冷系统,旨在实现高速数据传输和大规模AI工作负载处理,支持复杂任务的分布式训练。
微软近日揭幕了其首个AI超级工厂,通过专用光纤网络将位于威斯康星州和亚特兰大的大型AI数据中心连接起来,旨在实现训练数据的高速传输。该设计将芯片紧密排列在两层楼之间,以增加密度并减少延迟,同时采用广泛的电缆和液体系统来管理大量硬件产生的重量和热量。
微软在其博客文章中表示,这种配置将支持与云环境中常见的较小且孤立的任务不同的大规模AI工作负载。“这是关于构建一个分布式网络,可以像虚拟超级计算机一样解决世界上最大的挑战。”微软Azure基础设施总经理阿利斯泰尔·斯皮尔斯说,“我们称之为AI超级工厂的原因在于,它可以在数百万个硬件单元上运行一个复杂的任务……这不仅仅是一个站点在训练AI模型,而是一个网络支持这一任务。”
AI广域网系统利用新建和部分从早期收购中重新利用的专用光纤,在数千英里间传输信息。网络协议和架构经过调整,以缩短路径并尽量减少延迟,使不同地点能够近乎实时地协同完成同一模型的训练过程,每个位置都为其计算贡献份额。重点是保持大量GPU的持续活动,确保没有单元因等待其他位置的结果而暂停。
“在AI领域领先不仅需要增加更多GPU——还需要构建使它们作为一个系统协同工作的基础设施。”微软云+AI执行副总裁斯科特·古思里表示。微软采用Fairwater布局支持高吞吐量机架系统,包括Nvidia GB200 NVL72单元,这些单元专为扩展至非常大的Blackwell GPU集群而设计。公司还配备了液冷系统,将加热的液体排出建筑外部,再以较低温度返回,操作冷却几乎不需要新的水资源,除非为了化学控制而定期更换。
亚特兰大站点镜像了威斯康星州的设计,为多个区域提供了一致的架构,随着更多设施上线,这种一致性将继续保持。“要提高AI能力,就需要有更大规模的基础设施来训练。”微软Azure首席技术官、副首席信息安全官和技术研究员马克·鲁西诺维奇说,“现在训练这些模型所需的基础设施不仅是一个数据中心,也不仅仅是两个,而是多个这样的设施。”
微软强调,这些设施是专门为训练高级AI工具而建造的,面对不断增长的参数数量和更大的训练数据集,这些压力推动了扩展的需求。这些设施集成了EB级别的存储和数百万个CPU核心,用于支持主要训练工作流程周围的辅助任务。微软认为,这种规模对于OpenAI等合作伙伴及其自身的AI超级智能团队继续开发模型是必要的。
埃福萨撰写科技文章已有7年多,最初是出于好奇,如今则是对这一领域充满热情。他拥有理学硕士和博士学位,这为他的分析思维打下了坚实的基础。
(以上内容均由Ai生成)