AI驱动机架能耗激增,冷却成数据中心战略重点
快速阅读: 据Lennox Data Centre Solutions预测,2030年AI机架耗电将达1兆瓦,普通机架增至30-50千瓦。冷却与电力分配成数据中心战略重点,业内加强合作应对挑战。
据Lennox Data Centre Solutions的数据(图片来源:Lennox Data Center Solutions),预计到2030年,专注于AI的机架每台将消耗高达1兆瓦的电力。同期内,普通机架的能耗预计也将稳步上升至30-50千瓦。冷却和电力分配正成为未来数据中心的战略重点。
长期以来被视为数据中心基本单元的机架,正因AI的兴起而发生变革。从过去仅消耗几千瓦电力的情况来看,该公司的预测显示,到2030年,一个专注于AI的机架可能达到1兆瓦的电力使用量,这在过去是整个设施的规模。相比之下,普通数据中心机架在同一时期预计将攀升至30-50千瓦,反映出计算密度的持续增加,与AI工作负载形成鲜明对比。
据预测,单个AI机架的能耗可能是通用型机架的20到30倍,这对电力输送和冷却基础设施提出了新的需求。Lennox Data Centre Solutions的总监Ted Pulfer表示,冷却已成为行业的中心议题。“曾经作为支持基础设施一部分的冷却,现在已成为行业讨论的焦点,这由计算密度的增加、AI工作负载以及对液冷等方法日益增长的兴趣所驱动。”他说道。
Pulfer描述了目前行业内正在发生的合作水平。“制造商、工程师和终端用户之间的合作比以往任何时候都要紧密,他们共享见解,在实验室和实际部署中共同实验。这种实践中的合作有助于解决我们面临的最复杂的冷却挑战。”他还提到,为了实现向机架提供1兆瓦电力的目标,系统构建方式也在发生变化。“行业正从传统的低电压交流电转向高电压直流电,如±400伏。这减少了电力损失和电缆尺寸。”冷却则由设施‘中央’冷却分配单元管理,这些单元负责向机架分配液体流动。从那里,液体被输送到直接安装在服务器最热组件上的单独冷板上。”
尽管大多数数据中心目前依赖于冷板冷却,但这种方法存在局限性。微软正在进行微流体技术测试,通过在芯片背面蚀刻细小沟槽,使冷却液能够直接流经硅片。早期试验表明,这比冷板冷却效率高出三倍,具体取决于工作负载,同时降低了GPU温度升幅达65%。通过将这一设计与AI结合,用于映射芯片上的热点,微软能够更加精确地控制冷却液的流向。
尽管超大规模数据中心运营商可能主导这一领域,Pulfer认为小型运营商仍有竞争空间。“有时,工厂订单量大可能导致交付瓶颈,这为其他参与者提供了增值的机会。在这个快速发展的市场中,灵活性和创新能力仍然是整个行业的关键优势。”他说道。
显而易见,电力供应和热量排放已成为核心问题,不再次要于计算性能。正如Pulfer所说:“热量排放对于维持世界数字基础的平稳、可靠和可持续运行至关重要。”到本世纪末,机架的形状和规模可能决定数字基础设施的未来。
(以上内容均由Ai生成)