Perplexity优化AI模型运行效率,支持老旧硬件处理大规模参数

发布时间:2025年11月8日    来源:szf
Perplexity优化AI模型运行效率,支持老旧硬件处理大规模参数

快速阅读: Perplexity研究团队开发新软件优化技术,使万亿参数模型在老旧硬件上高效运行,解决内存和网络延迟问题,尤其适用于亚马逊EFA网络,显著提升多节点配置下的性能。

AI搜索提供商Perplexity的研究团队开发了一套新的软件优化技术,使得万亿参数或更大规模的模型能够在使用多种现有网络技术(包括亚马逊专有的弹性结构适配器)的老式、廉价硬件上高效运行。

这些创新在本周发表并公开于GitHub上的论文中进行了详细描述,提出了一种解决大规模混合专家模型(MoE)服务时面临的主要挑战——内存和网络延迟问题的新方法。

MoE模型,如DeepSeek V3和R1或Moonshot AI的Kimi K2,规模庞大,参数量从671亿到1万亿不等。这意味着它们无法在使用旧H100或H200 GPU的八GPU系统上大规模运行。虽然在某些情况下可以容纳模型权重,但没有足够的内存用于关键值缓存(模型的短期记忆),以合理规模提供服务。

要解决这个问题,要么需要更大的系统,要么将模型分散到多个较小的系统上。

最简单的解决方案是部署这些模型在Nvidia的GB200或GB300 NVL72机架系统上,这相当于一个巨大的服务器,配备72个192GB或288GB的GPU,足以支持甚至更大的多万亿参数LLM模型。

不幸的是,这些系统价格昂贵,需求极高,且可能不是所有地区都能获得——例如中国。相比之下,旧H100或H200系统的数量较多,价格也相对便宜,但需要将模型分布在多个节点上,这通常会导致性能显著下降。

这种性能下降在从密集模型转向稀疏MoE模型时尤为明显,后者通过路由到较小的权重子集(称为专家)来处理请求。每个令牌(可以理解为单词片段或标点符号)可能由不同的专家组生成。

这种架构的好处是减少了实现所需交互水平所需的内存带宽。然而,从网络角度来看,它也变得更加繁忙。

对于单节点或机架系统,高速互连如NVLink或AMD的Infinity Fabric可以轻松应对额外流量。但对于分布在多个节点上的模型,模型专家可能在连接速度慢7至14倍的不同系统上的GPU上运行。

为了解决这一问题,DeepSeek V3背后的开发者开发了DeepEP——这里的EP代表专家并行——一个旨在最小化其模型在多个H800系统上运行时性能损失的软件框架,这些系统通过Nvidia的ConnectX NICs连接。

削减EFA开销

问题在于,并不是每个人都在计算环境中使用Nvidia的NICs。亚马逊网络服务(AWS)就是一个典型的例子。

不同于标准以太网或Nvidia的InfiniBand互连技术,AWS开发了自己的网络协议,称为弹性结构适配器(EFA)。

就像Nvidia在其Hopper代HGX和DGX系统中常用的ConnectX-7 NICs一样,EFA支持高达400Gbps的聚合带宽。但正如Perplexity在其研究中指出的,这些NICs在几个显著方面不如Nvidia的NICs。

一方面,Perplexity指出EFA在MoE调度和组合过程中交换的消息大小上不如Nvidia的NICs。另一方面,EFA缺乏GPUDirect Async的支持,这项技术允许NICs绕过主机CPU直接与GPU通信。因此,EFA在某些工作负载中会产生延迟惩罚,因为数据必须先通过CPU代理。

为了解决这一问题,Perplexity开发了一套新的内核——优化的软件例程,用于处理GPU之间的通信——该公司声称,这套内核在Nvidia的ConnectX-7 NICs上实现了比DeepSeek的DeepEP更低的延迟,并使得使用EFA进行MoE模型分布式推理成为可能。

与DeepSeek现有的DeepEP库相比,Perplexity的内核在某些指标上表现略好,当运行在Nvidia的ConnectX-7上时,同时也将EFA的延迟降低到了可接受的水平。

为了验证这些测试,Perplexity在其内部推理引擎上使用了EFA进行节点间通信的DeepSeek V3和Kimi K2系列AWS H200 p5en实例测试了这些内核。

虽然DeepSeek V3并非拥有万亿参数的模型,其参数量接近700亿,但它足够小,可以安装在单个H200实例上,因此成为评估性能提升的基准。在测试中,Perplexity将单个八GPU系统的性能与16 GPU(两个实例)或多至32 GPU(四个实例)的多实例设置进行了对比。尽管在低批量和高批量大小下性能相对稳定,Perplexity发现,在多节点配置中,较高的专家并行度使得中等批量大小下的性能有所提高。相较于单节点基线,Perplexity优化的内核在将模型分布在两节点和四节点配置时,显著提升了性能。

这些性能特点同样适用于更大规模的模型,如Kimi K2,该模型过大无法安装在单个实例上。尽管与Nvidia的NVLink或AMD的Infinity Fabric相比,带宽受限,后者可比以太网快14倍,Perplexity仍能在中等批量大小的多节点推理中展示出显著的性能提升。Perplexity优化的EFA内核在大规模的1万亿参数Kimi K2模型中,于中等批量大小下也表现出性能提升。

Perplexity正持续优化其内核以适应亚马逊的EFA网络技术。该公司表示,他们正在关注亚马逊libfabric库的更新,以减少数据平面开销,并计划尝试efa-direct进一步降低延迟,提高整体性能。然而,真正的益处可能在于那些能够延长现有硬件使用寿命或利用全球最大云服务提供商的折扣实例类型的人,无需错过下一代前沿模型。®

赞助商:谷歌云上的生成式AI。免费开始使用。

(以上内容均由Ai生成)

你可能还想读

专家探讨AI并非所有自动化任务的最佳选择

专家探讨AI并非所有自动化任务的最佳选择

快速阅读: Axonius首席信息安全官Liz Morton等专家讨论指出,尽管AI工具在企业中展现强大能力,但在某些自动化任务中,传统IT工具因更高效率而成为更优选择。 2025年,我们几乎无法避开人工智能。尽管自主AI代理和智能工具在企 […]

发布时间:2025年11月9日
专家探讨AI非万能,传统自动化工具仍有优势

专家探讨AI非万能,传统自动化工具仍有优势

快速阅读: Axonius首席信息安全官Liz Morton等专家讨论2026年IT自动化趋势,指出尽管AI广泛应用于企业,但在特定任务上传统自动化工具仍更高效。 2025年,我们已经到了几乎无法避开人工智能的地步。尽管自主AI代理和智能工 […]

发布时间:2025年11月9日
中国AI新模型免费发布,性能超越GPT-5和Sonnet 4.5

中国AI新模型免费发布,性能超越GPT-5和Sonnet 4.5

快速阅读: 周四,中国公司Moonshot发布Kimi K2思考模型,该模型在多项基准测试中超越GPT-5和Sonnet 4.5,且开源免费。训练成本仅460万美元,挑战美国专有模型。 周四,Moonshot发布了其新的Kimi K2思考模 […]

发布时间:2025年11月9日
AI重塑工作与协作:从助手到伙伴的转变

AI重塑工作与协作:从助手到伙伴的转变

快速阅读: 2025年TechSparks会议讨论AI代理如何改变企业协作与生产力。专家们分享了AI在企业中的应用前景,强调了安全、情境感知的重要性,并探讨了AI与人类的合作模式。 随着代理型人工智能从任务执行者转变为自主合作者,它正在重塑 […]

发布时间:2025年11月9日
GE Aerospace与Shield AI合作,F110发动机助力X-BAT项目

GE Aerospace与Shield AI合作,F110发动机助力X-BAT项目

快速阅读: GE Aerospace与Shield AI合作开发X-BAT垂直起降战斗机,采用F110-GE-129发动机,增强垂直飞行和水平机动性,旨在提升自主系统能力。 GE Aerospace与Shield AI达成协议,共同开发Sh […]

发布时间:2025年11月9日
KIEFER携手NVIDIA推动希腊AI创新,打造可持续科技生态

KIEFER携手NVIDIA推动希腊AI创新,打造可持续科技生态

快速阅读: 基弗公司与NVIDIA合作,在希腊部署DGX BasePOD基础设施,使用可再生能源,开发Sophea.ai大规模语言模型,推动AI生态建设,加速技术主权进程。 基弗公司今日宣布部署NVIDIA DGX BasePOD基础设施, […]

发布时间:2025年11月9日
梅尔特沃特扩大海得拉巴AI中心,计划招聘150名工程师

梅尔特沃特扩大海得拉巴AI中心,计划招聘150名工程师

快速阅读: Meltwater在海得拉巴扩建人工智能中心,新设施占地14,000平方英尺,现有60名研发人员,计划2026年前增至150人。 传媒、社交和消费者情报公司Meltwater扩大了其在海得拉巴的人工智能中心,新设了一处面积达14 […]

发布时间:2025年11月9日
候选人质疑AI面试官真实性,完美回答背后藏玄机

候选人质疑AI面试官真实性,完美回答背后藏玄机

快速阅读: Reddit用户分享了一次线上面试经历,面试官表现机械且重复,疑似AI操作。此贴引发广泛讨论,涉及AI伦理及透明度问题。 面试一开始像往常一样——礼貌的微笑、点头致意,视频通话中友好的交流。但很快,面试官的动作开始让人感到不安。 […]

发布时间:2025年11月9日