InferenceMax推出AI基准测试,追踪软件栈性能变化
快速阅读: SemiAnalysis推出InferenceMax AI基准测试套件,测量AI软件栈各组件在实际推理场景中的效率,以Apache 2.0许可证发布,涵盖数百种AI加速器硬件和软件组合性能,强调总拥有成本(TCO)指标,旨在提供中立、真实的性能评估。
围绕人工智能的新闻报道几乎总是聚焦于涉及数百亿美元的交易,或是GPU和数据中心领域的最新硬件进展。然而,基准测试工作几乎完全集中在芯片上,而SemiAnalysis旨在通过其开源的InferenceMax AI基准测试套件解决这一问题。该套件测量了AI软件栈各组件在实际推理场景(即AI模型运行而非训练时)的效率,并在InferenceMax实时仪表板上发布这些数据。
InferenceMax以Apache 2.0许可证发布,滚动更新,每晚使用软件的最新版本获取新的测试结果,涵盖了数百种AI加速器硬件和软件组合的性能。项目方表示,现有的基准测试是在固定时间点完成的,不一定能展示当前版本的能力,也不突出整个AI堆栈(包括驱动程序、内核、框架、模型和其他组件)的软件进步(或退步)。
该基准测试旨在尽可能中立,并模仿真实应用场景。除了绝对性能,InferenceMax的指标还试图触及项目关心的关键数字:总拥有成本(TCO),即每百万令牌的美元成本。“令牌”是生成的AI数据的度量单位。基本性能衡量标准是每秒GPU或用户的令牌数,具体数值取决于同时服务的请求数量。
InferenceMax指出,在高吞吐量(每秒每GPU令牌数)情况下,通过同时服务多个客户端可实现最优GPU利用率,因为大型语言模型推理依赖于矩阵乘法,这又受益于批量处理多个请求。然而,同时处理多个请求会降低GPU对单个请求的专注时间,因此为了获得更快的输出(例如,在聊天机器人对话中),需要增加交互性(每秒每用户令牌数)并降低吞吐量。例如,当吞吐量设置过高而交互性不足时,ChatGPT可能会出现类似口吃的情况。
在任何“快、大、便宜——选两项”的情况下,都有一个通用配置下的最佳平衡点。理想配置位于帕累托前沿曲线上,该曲线在图中绘制了吞吐量与交互性的关系。由于购买GPU时需考虑其价格和功耗(或租赁时的成本),因此最佳GPU并不一定是最快的那款——而是最高效的。
InferenceMax指出,高交互性情况比高吞吐量情况更昂贵,但可能更有利可图,因为它们可以同时服务于更多用户。对于服务提供商而言,真正的衡量标准是总拥有成本(TCO),即每百万令牌的美元成本。InferenceMax尝试为各种场景估计这一数字,包括购买和拥有GPU与租用GPU之间的比较。
值得注意的是,仅仅查看给定GPU及其相关软件堆栈的性能图表,并不能提供最佳选项的全面视角,除非考虑到所有指标和预期使用场景。此外,InferenceMax应展示软件堆栈的变化(而非芯片本身)如何影响上述所有指标,从而影响总拥有成本。
作为实际案例,InferenceMax指出,尽管Nvidia的B200速度更快,但AMD的MI335X在总拥有成本方面具有竞争力。另一方面,AMD的FP4(4位浮点格式)内核似乎还有改进空间,因为在依赖此类数学运算的场景/模型中,主要还是Nvidia的芯片占据优势。
在其1.0版本中,InferenceMax支持Nvidia的GB200、NVL72、B200、H200和H100加速器,以及AMD的Instinct MI355X、MI325X和MI300X。该项目表示,未来计划增加对Google的支持。
在未来几个月内,InferenceMax将使用Tensor单元和AWS Trainium进行基准测试,这些测试每晚通过GitHub的动作运行器执行。AMD和Nvidia被要求提供GPU的真实配置集及软件栈,因为这些配置可以有数千种不同的调整方式。
在谈到供应商合作时,InferenceMax感谢了多个主要供应商和多家云托管提供商的众多人士,他们参与了项目,其中一些人甚至连夜修复了问题。该项目还发现了Nvidia和AMD设置中的多个漏洞,突显了AI加速装置开发和部署的快速步伐。
此次合作促使对AMD的ROCm(相当于Nvidia的CUDA)进行了补丁更新,InferenceMax指出AMD应该专注于为其用户提供更好的默认配置,因为据报道,要达到最佳性能需要调整的参数太多。在Nvidia方面,项目遇到了一些阻碍,主要是新推出的Blackwell驱动程序,在快速连续启动和关闭实例的基准测试场景中出现了初始化/终止的问题。
如果你对这一领域感兴趣,建议阅读InferenceMax的公告和文章。这是一篇有趣的读物,以幽默的方式详细描述了遇到的技术挑战。
Bruno Ferreira是Tom’s Hardware的撰稿人,他拥有数十年的PC硬件及相关配件经验,并且是一名开发者。他对细节有着执着的追求,喜欢就自己热爱的话题长篇大论。不这样做时,他通常在玩游戏,或者参加现场音乐会和音乐节。
(以上内容均由Ai生成)