Perplexity优化AI模型运行效率,支持老旧硬件处理大规模参数
快速阅读: Perplexity研究团队开发新软件优化技术,使万亿参数模型在老旧硬件上高效运行,解决内存和网络延迟问题,尤其适用于亚马逊EFA网络,显著提升多节点配置下的性能。
AI搜索提供商Perplexity的研究团队开发了一套新的软件优化技术,使得万亿参数或更大规模的模型能够在使用多种现有网络技术(包括亚马逊专有的弹性结构适配器)的老式、廉价硬件上高效运行。
这些创新在本周发表并公开于GitHub上的论文中进行了详细描述,提出了一种解决大规模混合专家模型(MoE)服务时面临的主要挑战——内存和网络延迟问题的新方法。
MoE模型,如DeepSeek V3和R1或Moonshot AI的Kimi K2,规模庞大,参数量从671亿到1万亿不等。这意味着它们无法在使用旧H100或H200 GPU的八GPU系统上大规模运行。虽然在某些情况下可以容纳模型权重,但没有足够的内存用于关键值缓存(模型的短期记忆),以合理规模提供服务。
要解决这个问题,要么需要更大的系统,要么将模型分散到多个较小的系统上。
最简单的解决方案是部署这些模型在Nvidia的GB200或GB300 NVL72机架系统上,这相当于一个巨大的服务器,配备72个192GB或288GB的GPU,足以支持甚至更大的多万亿参数LLM模型。
不幸的是,这些系统价格昂贵,需求极高,且可能不是所有地区都能获得——例如中国。相比之下,旧H100或H200系统的数量较多,价格也相对便宜,但需要将模型分布在多个节点上,这通常会导致性能显著下降。
这种性能下降在从密集模型转向稀疏MoE模型时尤为明显,后者通过路由到较小的权重子集(称为专家)来处理请求。每个令牌(可以理解为单词片段或标点符号)可能由不同的专家组生成。
这种架构的好处是减少了实现所需交互水平所需的内存带宽。然而,从网络角度来看,它也变得更加繁忙。
对于单节点或机架系统,高速互连如NVLink或AMD的Infinity Fabric可以轻松应对额外流量。但对于分布在多个节点上的模型,模型专家可能在连接速度慢7至14倍的不同系统上的GPU上运行。
为了解决这一问题,DeepSeek V3背后的开发者开发了DeepEP——这里的EP代表专家并行——一个旨在最小化其模型在多个H800系统上运行时性能损失的软件框架,这些系统通过Nvidia的ConnectX NICs连接。
削减EFA开销
问题在于,并不是每个人都在计算环境中使用Nvidia的NICs。亚马逊网络服务(AWS)就是一个典型的例子。
不同于标准以太网或Nvidia的InfiniBand互连技术,AWS开发了自己的网络协议,称为弹性结构适配器(EFA)。
就像Nvidia在其Hopper代HGX和DGX系统中常用的ConnectX-7 NICs一样,EFA支持高达400Gbps的聚合带宽。但正如Perplexity在其研究中指出的,这些NICs在几个显著方面不如Nvidia的NICs。
一方面,Perplexity指出EFA在MoE调度和组合过程中交换的消息大小上不如Nvidia的NICs。另一方面,EFA缺乏GPUDirect Async的支持,这项技术允许NICs绕过主机CPU直接与GPU通信。因此,EFA在某些工作负载中会产生延迟惩罚,因为数据必须先通过CPU代理。
为了解决这一问题,Perplexity开发了一套新的内核——优化的软件例程,用于处理GPU之间的通信——该公司声称,这套内核在Nvidia的ConnectX-7 NICs上实现了比DeepSeek的DeepEP更低的延迟,并使得使用EFA进行MoE模型分布式推理成为可能。
与DeepSeek现有的DeepEP库相比,Perplexity的内核在某些指标上表现略好,当运行在Nvidia的ConnectX-7上时,同时也将EFA的延迟降低到了可接受的水平。
为了验证这些测试,Perplexity在其内部推理引擎上使用了EFA进行节点间通信的DeepSeek V3和Kimi K2系列AWS H200 p5en实例测试了这些内核。
虽然DeepSeek V3并非拥有万亿参数的模型,其参数量接近700亿,但它足够小,可以安装在单个H200实例上,因此成为评估性能提升的基准。在测试中,Perplexity将单个八GPU系统的性能与16 GPU(两个实例)或多至32 GPU(四个实例)的多实例设置进行了对比。尽管在低批量和高批量大小下性能相对稳定,Perplexity发现,在多节点配置中,较高的专家并行度使得中等批量大小下的性能有所提高。相较于单节点基线,Perplexity优化的内核在将模型分布在两节点和四节点配置时,显著提升了性能。
这些性能特点同样适用于更大规模的模型,如Kimi K2,该模型过大无法安装在单个实例上。尽管与Nvidia的NVLink或AMD的Infinity Fabric相比,带宽受限,后者可比以太网快14倍,Perplexity仍能在中等批量大小的多节点推理中展示出显著的性能提升。Perplexity优化的EFA内核在大规模的1万亿参数Kimi K2模型中,于中等批量大小下也表现出性能提升。
Perplexity正持续优化其内核以适应亚马逊的EFA网络技术。该公司表示,他们正在关注亚马逊libfabric库的更新,以减少数据平面开销,并计划尝试efa-direct进一步降低延迟,提高整体性能。然而,真正的益处可能在于那些能够延长现有硬件使用寿命或利用全球最大云服务提供商的折扣实例类型的人,无需错过下一代前沿模型。®
赞助商:谷歌云上的生成式AI。免费开始使用。
(以上内容均由Ai生成)