InferenceMax推出AI基准测试，追踪软件栈性能变化

快速阅读: SemiAnalysis推出InferenceMax AI基准测试套件，测量AI软件栈各组件在实际推理场景中的效率，以Apache 2.0许可证发布，涵盖数百种AI加速器硬件和软件组合性能，强调总拥有成本（TCO）指标，旨在提供中立、真实的性能评估。

围绕人工智能的新闻报道几乎总是聚焦于涉及数百亿美元的交易，或是GPU和数据中心领域的最新硬件进展。然而，基准测试工作几乎完全集中在芯片上，而SemiAnalysis旨在通过其开源的InferenceMax AI基准测试套件解决这一问题。该套件测量了AI软件栈各组件在实际推理场景（即AI模型运行而非训练时）的效率，并在InferenceMax实时仪表板上发布这些数据。

InferenceMax以Apache 2.0许可证发布，滚动更新，每晚使用软件的最新版本获取新的测试结果，涵盖了数百种AI加速器硬件和软件组合的性能。项目方表示，现有的基准测试是在固定时间点完成的，不一定能展示当前版本的能力，也不突出整个AI堆栈（包括驱动程序、内核、框架、模型和其他组件）的软件进步（或退步）。

该基准测试旨在尽可能中立，并模仿真实应用场景。除了绝对性能，InferenceMax的指标还试图触及项目关心的关键数字：总拥有成本（TCO），即每百万令牌的美元成本。“令牌”是生成的AI数据的度量单位。基本性能衡量标准是每秒GPU或用户的令牌数，具体数值取决于同时服务的请求数量。

InferenceMax指出，在高吞吐量（每秒每GPU令牌数）情况下，通过同时服务多个客户端可实现最优GPU利用率，因为大型语言模型推理依赖于矩阵乘法，这又受益于批量处理多个请求。然而，同时处理多个请求会降低GPU对单个请求的专注时间，因此为了获得更快的输出（例如，在聊天机器人对话中），需要增加交互性（每秒每用户令牌数）并降低吞吐量。例如，当吞吐量设置过高而交互性不足时，ChatGPT可能会出现类似口吃的情况。

在任何“快、大、便宜——选两项”的情况下，都有一个通用配置下的最佳平衡点。理想配置位于帕累托前沿曲线上，该曲线在图中绘制了吞吐量与交互性的关系。由于购买GPU时需考虑其价格和功耗（或租赁时的成本），因此最佳GPU并不一定是最快的那款——而是最高效的。

InferenceMax指出，高交互性情况比高吞吐量情况更昂贵，但可能更有利可图，因为它们可以同时服务于更多用户。对于服务提供商而言，真正的衡量标准是总拥有成本（TCO），即每百万令牌的美元成本。InferenceMax尝试为各种场景估计这一数字，包括购买和拥有GPU与租用GPU之间的比较。

值得注意的是，仅仅查看给定GPU及其相关软件堆栈的性能图表，并不能提供最佳选项的全面视角，除非考虑到所有指标和预期使用场景。此外，InferenceMax应展示软件堆栈的变化（而非芯片本身）如何影响上述所有指标，从而影响总拥有成本。

作为实际案例，InferenceMax指出，尽管Nvidia的B200速度更快，但AMD的MI335X在总拥有成本方面具有竞争力。另一方面，AMD的FP4（4位浮点格式）内核似乎还有改进空间，因为在依赖此类数学运算的场景/模型中，主要还是Nvidia的芯片占据优势。

在其1.0版本中，InferenceMax支持Nvidia的GB200、NVL72、B200、H200和H100加速器，以及AMD的Instinct MI355X、MI325X和MI300X。该项目表示，未来计划增加对Google的支持。

在未来几个月内，InferenceMax将使用Tensor单元和AWS Trainium进行基准测试，这些测试每晚通过GitHub的动作运行器执行。AMD和Nvidia被要求提供GPU的真实配置集及软件栈，因为这些配置可以有数千种不同的调整方式。

在谈到供应商合作时，InferenceMax感谢了多个主要供应商和多家云托管提供商的众多人士，他们参与了项目，其中一些人甚至连夜修复了问题。该项目还发现了Nvidia和AMD设置中的多个漏洞，突显了AI加速装置开发和部署的快速步伐。

此次合作促使对AMD的ROCm（相当于Nvidia的CUDA）进行了补丁更新，InferenceMax指出AMD应该专注于为其用户提供更好的默认配置，因为据报道，要达到最佳性能需要调整的参数太多。在Nvidia方面，项目遇到了一些阻碍，主要是新推出的Blackwell驱动程序，在快速连续启动和关闭实例的基准测试场景中出现了初始化/终止的问题。

如果你对这一领域感兴趣，建议阅读InferenceMax的公告和文章。这是一篇有趣的读物，以幽默的方式详细描述了遇到的技术挑战。

Bruno Ferreira是Tom’s Hardware的撰稿人，他拥有数十年的PC硬件及相关配件经验，并且是一名开发者。他对细节有着执着的追求，喜欢就自己热爱的话题长篇大论。不这样做时，他通常在玩游戏，或者参加现场音乐会和音乐节。

(以上内容均由Ai生成)