微软公布AI超级工厂，连接两地数据中心加速模型训练

发布时间：2025年11月18日来源：szf

快速阅读: 微软建立首个AI超级工厂，连接威斯康星州和亚特兰大AI数据中心，采用专用光纤网络和液冷系统，旨在实现高速数据传输和大规模AI工作负载处理，支持复杂任务的分布式训练。

微软近日揭幕了其首个AI超级工厂，通过专用光纤网络将位于威斯康星州和亚特兰大的大型AI数据中心连接起来，旨在实现训练数据的高速传输。该设计将芯片紧密排列在两层楼之间，以增加密度并减少延迟，同时采用广泛的电缆和液体系统来管理大量硬件产生的重量和热量。

微软在其博客文章中表示，这种配置将支持与云环境中常见的较小且孤立的任务不同的大规模AI工作负载。“这是关于构建一个分布式网络，可以像虚拟超级计算机一样解决世界上最大的挑战。”微软Azure基础设施总经理阿利斯泰尔·斯皮尔斯说，“我们称之为AI超级工厂的原因在于，它可以在数百万个硬件单元上运行一个复杂的任务……这不仅仅是一个站点在训练AI模型，而是一个网络支持这一任务。”

AI广域网系统利用新建和部分从早期收购中重新利用的专用光纤，在数千英里间传输信息。网络协议和架构经过调整，以缩短路径并尽量减少延迟，使不同地点能够近乎实时地协同完成同一模型的训练过程，每个位置都为其计算贡献份额。重点是保持大量GPU的持续活动，确保没有单元因等待其他位置的结果而暂停。

“在AI领域领先不仅需要增加更多GPU——还需要构建使它们作为一个系统协同工作的基础设施。”微软云+AI执行副总裁斯科特·古思里表示。微软采用Fairwater布局支持高吞吐量机架系统，包括Nvidia GB200 NVL72单元，这些单元专为扩展至非常大的Blackwell GPU集群而设计。公司还配备了液冷系统，将加热的液体排出建筑外部，再以较低温度返回，操作冷却几乎不需要新的水资源，除非为了化学控制而定期更换。

亚特兰大站点镜像了威斯康星州的设计，为多个区域提供了一致的架构，随着更多设施上线，这种一致性将继续保持。“要提高AI能力，就需要有更大规模的基础设施来训练。”微软Azure首席技术官、副首席信息安全官和技术研究员马克·鲁西诺维奇说，“现在训练这些模型所需的基础设施不仅是一个数据中心，也不仅仅是两个，而是多个这样的设施。”

微软强调，这些设施是专门为训练高级AI工具而建造的，面对不断增长的参数数量和更大的训练数据集，这些压力推动了扩展的需求。这些设施集成了EB级别的存储和数百万个CPU核心，用于支持主要训练工作流程周围的辅助任务。微软认为，这种规模对于OpenAI等合作伙伴及其自身的AI超级智能团队继续开发模型是必要的。

埃福萨撰写科技文章已有7年多，最初是出于好奇，如今则是对这一领域充满热情。他拥有理学硕士和博士学位，这为他的分析思维打下了坚实的基础。

(以上内容均由Ai生成)