Gartner：在数据中心使用 GPU 时的注意事项

发布时间：2025年5月19日来源：szf

快速阅读: 据《计算机周刊》最新报道，构建AI基础设施时，现有网络面临挑战。叶脊拓扑不完全适合AI任务，可能导致性能干扰。Gartner建议为GPU定制专用交换机，优化物理跳数，采用多样拓扑结构。小型集群宜用1-2台交换机，大型集群需设计专属以太网架构。此举可提升AI网络性能，助力企业竞争。

在构建人工智能（AI）基础设施时，网络部署面临着独特的挑战。尽管叶脊拓扑结构是当前基于中央处理器（CPU）通用计算工作的主流解决方案，但其并不完全适用于AI工作负载的需求。在现有的数据中心网络中运行AI工作负载时，可能会出现“噪声邻居”效应，这种现象会干扰AI任务和其他现有工作负载的性能表现，导致AI任务处理效率低下以及作业完成时间的延迟。

从成本角度来看，网络交换机在AI基础设施中的占比通常不超过总成本的15%，因此为了节省成本而采用现有的交换机配置，往往会在整体性价比上出现问题。为此，研究机构Gartner提出了针对性的建议。

Gartner建议，针对GPU特有的流量需求与成本特性，应专门构建服务于GPU连接的物理交换机。同时，与其默认选择叶脊拓扑结构，Gartner提倡通过减少物理交换机的数量来降低物理跳数。这种策略可能促使AI网络架构采用多种拓扑结构，例如单交换机、双交换机、全网状、立方体网状以及龙飞拓扑结构。

为了避免将同一交换机用于其他通用数据中心计算任务，Gartner指出，对于拥有低于500个GPU的集群，使用一到两个物理交换机是最理想的配置。而对于拥有超过500个GPU的大型组织，Gartner建议IT决策者设计专门的AI以太网架构。这种架构可能需要突破传统的机架顶部拓扑结构，转而采用行间或模块化的交换方案。

综上所述，专为GPU设计的专用物理交换机不仅能有效应对AI工作负载的特殊需求，还能显著提升整体网络性能和效率，从而帮助企业在AI领域取得更大的竞争优势。这一布局不仅能够规避传统架构的局限性，还能为企业未来的AI发展奠定坚实的基础。

(以上内容均由Ai生成)