Perplexity优化AI模型，实现老旧硬件上高效运行

快速阅读: Perplexity开发新技术，使大型AI模型能在低成本旧硬件上高效运行，解决内存和网络延迟问题，尤其优化了亚马逊EFA的性能，提升多节点配置下的模型推理效率。

AI搜索提供商Perplexity的研究团队开发了一套新的软件优化技术，使得大型模型（参数量达到万亿级）能够通过现有的多种网络技术，包括亚马逊专有的弹性结构适配器（Elastic Fabric Adapter, EFA），在老旧且成本较低的硬件上高效运行。

这些创新成果本周以论文形式发表，并在GitHub上公开，供进一步审查。它们提供了一种新颖的方法来解决大规模专家混合模型（Mixture of Experts, MoE）部署时面临的主要挑战之一：内存和网络延迟问题。

MoE模型，如DeepSeek V3和R1或Moonshot AI的Kimi K2，规模庞大，参数量从6710亿到1万亿不等。这意味着，这些模型无法在配备旧H100或H200 GPU的八GPU系统上大规模运行。虽然有时可以加载模型权重，但剩余的内存不足以支持关键值缓存（即模型的短期记忆），这限制了其服务规模。

要解决这一问题，要么需要更大的系统，要么将模型分片部署在多个较小的系统上。理想的选择是使用Nvidia的GB200或GB300 NVL72机架系统，该系统相当于一个大型服务器，配备72个192GB或288GB的GPU，足以支持更大规模的多万亿参数LLM模型。然而，这些系统的成本高昂，需求极大，且可能无法在所有地区获得，尤其是中国。相比之下，旧的H100或H200系统较为丰富且相对便宜，但需要将模型分布在多个节点上，这通常会导致性能显著下降。

这种性能下降在从密集模型转向稀疏MoE模型时更为明显。在密集模型中，每次生成一个标记（如单词片段或标点符号）时，都会从内存中读取整个权重。而在稀疏MoE模型中，请求被路由到一组较小的权重，称为专家。每个标记可能由不同的专家组生成，这虽然减少了实现预期交互水平所需的内存带宽，但从网络通信的角度来看，却变得更加频繁。

对于单节点或机架系统，高速互连如NVLink或AMD的Infinity Fabric可以轻松应对额外的流量。但对于分布在多个节点上的模型，不同系统的GPU之间可能通过速度慢7到14倍的互连通信，这增加了复杂性。

为了解决这个问题，DeepSeek V3背后的开发者开发了DeepEP框架，旨在最小化其模型在多个H800系统上运行时的性能损失，这些系统通过Nvidia的ConnectX网卡连接。

然而，并不是所有人都在计算环境中使用Nvidia的网卡。例如，亚马逊网络服务（AWS）使用的是自己开发的网络协议——弹性结构适配器（EFA）。EFA支持高达400Gbps的聚合带宽，但在MoE调度和组合过程中交换的消息大小方面不如Nvidia的网卡表现好。此外，EFA不支持GPUDirect Async技术，这项技术允许网卡绕过主机CPU直接与GPU通信，因此在某些工作负载下，EFA会因数据需先通过CPU代理而产生延迟。

为了解决这些问题，Perplexity开发了一套新的内核——优化后的软件例程，用于处理GPU之间的通信。该公司声称，这套内核在Nvidia的ConnectX-7网卡上实现了比DeepSeek的DeepEP更低的延迟，并使得使用EFA进行MoE模型的分布式推理成为可能。

与DeepSeek现有的DeepEP库相比，Perplexity的内核在某些指标上表现略优，尤其是在Nvidia的ConnectX-7上运行时，同时还将EFA的延迟降至可接受的水平。为了验证这些测试结果，Perplexity在其内部推理引擎上使用EFA进行节点间通信，测试了这些内核在一系列AWS H200 p5en实例上运行DeepSeek V3和Kimi K2的情况。

虽然DeepSeek V3并非万亿参数模型，其参数量接近7000亿，但体积足够小，能够部署在单个H200实例上，因此可以作为评估性能提升的基准。

在测试中，Perplexity将单个八GPU系统的性能与16个GPU（两个实例）或多至32个GPU（四个实例）的多实例设置进行了对比。尽管在低批量和高批量处理时性能相对稳定，但在中等批量处理时，多节点配置中的更高程度的专家并行性带来了更高的性能。

与单节点基线相比，Perplexity优化的内核在将模型分布在两个和四个节点配置上时，提供了显著的性能提升。

这些性能特征同样适用于更大的模型，如无法在单个实例上运行的Kimi K2。尽管带宽受限于Nvidia的NVLink或AMD的Infinity Fabric，后者比以太网快14倍以上，Perplexity仍然能够在多节点推理的中等批量处理中展示出有意义的性能提升。

对于拥有1万亿参数的更大规模Kimi K2模型，Perplexity优化的EFA内核在中等批量处理时也显示出性能提升。

Perplexity正持续优化其针对亚马逊EFA网络技术的内核。该公司表示，它正在跟踪亚马逊libfabric库的更新，以减少数据平面开销，并计划试验efa-direct以进一步降低延迟并提高整体性能。

然而，真正的受益者可能是那些能够更长时间利用现有硬件，或利用全球最大的云服务提供商提供的折扣实例类型，而不错过下一代前沿模型的用户。®

赞助：Google Cloud上的生成式AI。免费开始使用。

(以上内容均由Ai生成)