Gartner:在数据中心使用 GPU 时的注意事项
快速阅读: 据《计算机周刊》最新报道,构建AI基础设施时,现有网络面临挑战。叶脊拓扑不完全适合AI任务,可能导致性能干扰。Gartner建议为GPU定制专用交换机,优化物理跳数,采用多样拓扑结构。小型集群宜用1-2台交换机,大型集群需设计专属以太网架构。此举可提升AI网络性能,助力企业竞争。
在构建人工智能(AI)基础设施时,网络部署面临着独特的挑战。尽管叶脊拓扑结构是当前基于中央处理器(CPU)通用计算工作的主流解决方案,但其并不完全适用于AI工作负载的需求。在现有的数据中心网络中运行AI工作负载时,可能会出现“噪声邻居”效应,这种现象会干扰AI任务和其他现有工作负载的性能表现,导致AI任务处理效率低下以及作业完成时间的延迟。
从成本角度来看,网络交换机在AI基础设施中的占比通常不超过总成本的15%,因此为了节省成本而采用现有的交换机配置,往往会在整体性价比上出现问题。为此,研究机构Gartner提出了针对性的建议。
Gartner建议,针对GPU特有的流量需求与成本特性,应专门构建服务于GPU连接的物理交换机。同时,与其默认选择叶脊拓扑结构,Gartner提倡通过减少物理交换机的数量来降低物理跳数。这种策略可能促使AI网络架构采用多种拓扑结构,例如单交换机、双交换机、全网状、立方体网状以及龙飞拓扑结构。
为了避免将同一交换机用于其他通用数据中心计算任务,Gartner指出,对于拥有低于500个GPU的集群,使用一到两个物理交换机是最理想的配置。而对于拥有超过500个GPU的大型组织,Gartner建议IT决策者设计专门的AI以太网架构。这种架构可能需要突破传统的机架顶部拓扑结构,转而采用行间或模块化的交换方案。
综上所述,专为GPU设计的专用物理交换机不仅能有效应对AI工作负载的特殊需求,还能显著提升整体网络性能和效率,从而帮助企业在AI领域取得更大的竞争优势。这一布局不仅能够规避传统架构的局限性,还能为企业未来的AI发展奠定坚实的基础。
(以上内容均由Ai生成)