AI 如何改变高速以太网的游戏规则
快速阅读: 据《快速模式》最新报道,运营商指出,目前的人工智能基础设施要求每XPU需具备1 Tbps的网络带宽,并且这一需求将持续增加。除了规模外,人工智能网络还需处理数千个并行任务、突发的东西向流量,以及高数据与计算需求的工作负载。关键在于提供极低延迟和无丢包,以避免因单一数据流延迟导致整个集群性能下降。例如,META公司表示,他们早期的人工智能应用有三分之一的时间受制于网络瓶颈。网络限制或成为制约人工智能盈利的关键因素。
运营商报告称,当前的人工智能基础设施已经需要每个XPU需要1 Tbps的网络带宽,并且这一数字还将增长。但挑战不仅限于规模大小。人工智能网络结构必须支持数千个同步任务并行运行,东西向的突发流量模式,以及具有极端数据和计算需求的工作负载。至关重要的是,这些网络还必须提供极低的延迟和零丢包,以优化任务完成速度,因为单一数据流的延迟可能导致集群中所有节点的性能下降。例如,META公司报告称,他们早期的人工智能应用有三分之一的时间都在等待网络。网络限制可能是对人工智能盈利能力的最大挑战之一。毕竟,如果价值十亿美元的XPU设备投资有30%的时间闲置,那将导致数亿美元的损失。
(以上内容均由Ai生成)