Arista Networks 通过新功能扩展 AI 性能
快速阅读: 《硅角度》消息,Arista Networks推出新功能“集群负载均衡(CLB)”,提升AI集群性能与效率,同时发布AI可观测性工具。CLB优化流量分配,提高吞吐量和低延迟,显著改善AI任务表现。相关功能已在多个平台上线,未来将进一步扩展支持。
人工智能继续成为技术与通信领域的焦点,各大公司纷纷将其作为发展重点,尤其随着企业客户需求不断攀升。然而,人工智能的成功不仅依赖于芯片技术,网络在其中扮演的角色同样至关重要。尽管资本市场对芯片公司青睐有加,但网络供应商也在积极升级其产品以满足人工智能的需求。其中,Arista Networks Inc. 是将业务增长与人工智能结合得最为成功的网络供应商之一,近日宣布了其EOS智能AI套件的新特性,旨在提升AI集群的性能与效率。
总部位于圣克拉拉的Arista Networks推出了名为“集群负载均衡(CLB)”的新功能,该功能集成在其Arista EOS智能AI套件中,旨在最大化AI工作负载的性能,同时确保网络流量的一致性和低延迟。此外,该公司还宣布其Arista CloudVision通用网络可观测性(CV UNO)现已提供AI可观测性,以增强故障排查和问题推理能力,确保大规模任务顺利完成。
CLB的优势基于RDMA队列技术,能够在脊椎和叶节点之间实现高带宽利用率。AI集群的一大特点是其通常具有少量的大带宽流,这与常见的电子邮件和互联网流量截然不同。传统网络架构并未针对AI需求进行优化,因此缺乏必要的吞吐量来支持AI工作负载。CLB通过RDMA感知的流放置解决了这一问题,为所有流提供统一的高性能,同时保持低尾部延迟。CLB优化了双向流量——从叶节点到脊椎节点以及从脊椎节点到叶节点——为企业提供了平衡的利用率和一致的低延迟。
Arista的可观察性产品主管Prafel Bhaidasna提到:“通过CLB,我们不仅关注网络性能,还整合了应用程序级别的性能、虚拟机性能等,这一切都可以在一个屏幕上呈现,从而帮助网络工程师快速定位性能问题并找到根本原因。”
性能提升的量化
Arista的AI、路由和交换平台副总裁Brendan Gibbs进一步量化了CLB带来的优势。他表示,虽然每个组织的具体情况不同,但性能提升十分显著。“对于AI集群而言,大约30%的时间会消耗在网络中。如果我们在客户现有的链路上能提供额外8%或10%的吞吐量,这意味着Arista网络将在吞吐量和任务完成时间上优于其他竞争平台。”
性能提升是显而易见的。使用传统网络优化方法(如动态负载均衡DLB)的最佳网络运行效率约为90%。相比之下,CLB可以达到98.3%的效率。考虑到GPU的成本,几乎所有AI IT专业人士都希望获得更多的网络吞吐量,以保持处理器忙碌,避免因低效导致的资金浪费。例如,甲骨文公司正在使用Arista交换机扩展其AI基础设施,其云基础设施副总裁兼杰出工程师Jag Brar在Arista的新闻稿中表示:“我们需要先进的负载均衡技术来帮助避免流内容争用并增加ML网络中的吞吐量,Arista的集群负载均衡功能有助于实现这一点。”
AI任务的可视性
Arista指出,CV UNO通过提供端到端的AI任务可视性,在Arista网络数据湖(NetDL)中统一了网络、系统和AI任务数据。NetDL是一个实时遥测框架,它将Arista交换机的细粒度网络数据流式传输到NetDL中,而不是像传统SNMP轮询那样依赖周期性查询,后者可能会遗漏关键更新。尽管Arista制造出优秀的硬件,但正是数据使其产品在操作和性能上具有一致性。当Arista推出时,每个网络设备都有自己的网络数据库NetDB,但几年后,它演变为跨其产品的单一数据湖,NetDL由此诞生。
EOS NetDL为网络性能提供了低延迟、高频次、事件驱动的洞察力,这是在大规模AI训练和推理基础设施中提供连接的关键要素。EOS NetDL流媒体的好处包括:
– AI任务监控:查看AI任务健康指标,如任务完成时间、拥塞指示器和缓冲区/链路利用率的实时见解。
– AI任务监控:深度分析:通过分析网络设备、服务器网卡及相关流来提供特定任务的洞察,精确识别性能瓶颈。
– 流可视化:利用CV拓扑映射的力量,以微秒级的精度提供实时直观的AI任务流视图,加速问题推理和解决。
– 主动解决:快速发现异常,并在NetDL中关联网络和计算机性能,确保不间断、高效率的AI任务执行。
可用性
Arista表示,CLB目前在其7260X3、7280R3、7500R3和7800R3平台上可用。它将在2025年第二季度在7060X6和7060X5平台上得到支持。7800R4平台的支持计划在今年下半年进行。CV UNO目前可用,预计将在2025年下半年向客户提供测试版。
宙斯·凯拉瓦拉是ZK研究公司的首席分析师,该研究公司隶属于凯拉瓦拉咨询公司。他为SiliconANGLE撰写了这篇文章。
图片:Ms_Tali/Adobe Stock
来自SiliconANGLE联合创始人约翰·弗瑞尔的信息:您的支持对我们非常重要,它帮助我们保持内容免费。只需点击一下即可支持我们的使命,即提供免费、深入和相关的内容。加入我们的YouTube社区,加入包含超过15,000位Cube社区专家的社区,其中包括亚马逊CEO安迪·贾西、戴尔科技创始人兼CEO迈克尔·戴尔、英特尔CEO帕特·基辛格等众多名人和专家。
“CUBE是行业的重要合作伙伴。你们真的是我们活动的一部分,我们非常感谢你们的参与,我知道人们也欣赏你们创造的内容。”——安迪·贾西
谢谢您对内容的支持!
(以上内容均由Ai生成)