AI

InferenceMax推出AI基准测试,追踪软件栈性能变化

发布时间:2025年10月11日    来源:szf
InferenceMax推出AI基准测试,追踪软件栈性能变化

快速阅读: SemiAnalysis推出InferenceMax AI基准测试套件,测量AI软件栈各组件在实际推理场景中的效率,以Apache 2.0许可证发布,涵盖数百种AI加速器硬件和软件组合性能,强调总拥有成本(TCO)指标,旨在提供中立、真实的性能评估。

围绕人工智能的新闻报道几乎总是聚焦于涉及数百亿美元的交易,或是GPU和数据中心领域的最新硬件进展。然而,基准测试工作几乎完全集中在芯片上,而SemiAnalysis旨在通过其开源的InferenceMax AI基准测试套件解决这一问题。该套件测量了AI软件栈各组件在实际推理场景(即AI模型运行而非训练时)的效率,并在InferenceMax实时仪表板上发布这些数据。

InferenceMax以Apache 2.0许可证发布,滚动更新,每晚使用软件的最新版本获取新的测试结果,涵盖了数百种AI加速器硬件和软件组合的性能。项目方表示,现有的基准测试是在固定时间点完成的,不一定能展示当前版本的能力,也不突出整个AI堆栈(包括驱动程序、内核、框架、模型和其他组件)的软件进步(或退步)。

该基准测试旨在尽可能中立,并模仿真实应用场景。除了绝对性能,InferenceMax的指标还试图触及项目关心的关键数字:总拥有成本(TCO),即每百万令牌的美元成本。“令牌”是生成的AI数据的度量单位。基本性能衡量标准是每秒GPU或用户的令牌数,具体数值取决于同时服务的请求数量。

InferenceMax指出,在高吞吐量(每秒每GPU令牌数)情况下,通过同时服务多个客户端可实现最优GPU利用率,因为大型语言模型推理依赖于矩阵乘法,这又受益于批量处理多个请求。然而,同时处理多个请求会降低GPU对单个请求的专注时间,因此为了获得更快的输出(例如,在聊天机器人对话中),需要增加交互性(每秒每用户令牌数)并降低吞吐量。例如,当吞吐量设置过高而交互性不足时,ChatGPT可能会出现类似口吃的情况。

在任何“快、大、便宜——选两项”的情况下,都有一个通用配置下的最佳平衡点。理想配置位于帕累托前沿曲线上,该曲线在图中绘制了吞吐量与交互性的关系。由于购买GPU时需考虑其价格和功耗(或租赁时的成本),因此最佳GPU并不一定是最快的那款——而是最高效的。

InferenceMax指出,高交互性情况比高吞吐量情况更昂贵,但可能更有利可图,因为它们可以同时服务于更多用户。对于服务提供商而言,真正的衡量标准是总拥有成本(TCO),即每百万令牌的美元成本。InferenceMax尝试为各种场景估计这一数字,包括购买和拥有GPU与租用GPU之间的比较。

值得注意的是,仅仅查看给定GPU及其相关软件堆栈的性能图表,并不能提供最佳选项的全面视角,除非考虑到所有指标和预期使用场景。此外,InferenceMax应展示软件堆栈的变化(而非芯片本身)如何影响上述所有指标,从而影响总拥有成本。

作为实际案例,InferenceMax指出,尽管Nvidia的B200速度更快,但AMD的MI335X在总拥有成本方面具有竞争力。另一方面,AMD的FP4(4位浮点格式)内核似乎还有改进空间,因为在依赖此类数学运算的场景/模型中,主要还是Nvidia的芯片占据优势。

在其1.0版本中,InferenceMax支持Nvidia的GB200、NVL72、B200、H200和H100加速器,以及AMD的Instinct MI355X、MI325X和MI300X。该项目表示,未来计划增加对Google的支持。

在未来几个月内,InferenceMax将使用Tensor单元和AWS Trainium进行基准测试,这些测试每晚通过GitHub的动作运行器执行。AMD和Nvidia被要求提供GPU的真实配置集及软件栈,因为这些配置可以有数千种不同的调整方式。

在谈到供应商合作时,InferenceMax感谢了多个主要供应商和多家云托管提供商的众多人士,他们参与了项目,其中一些人甚至连夜修复了问题。该项目还发现了Nvidia和AMD设置中的多个漏洞,突显了AI加速装置开发和部署的快速步伐。

此次合作促使对AMD的ROCm(相当于Nvidia的CUDA)进行了补丁更新,InferenceMax指出AMD应该专注于为其用户提供更好的默认配置,因为据报道,要达到最佳性能需要调整的参数太多。在Nvidia方面,项目遇到了一些阻碍,主要是新推出的Blackwell驱动程序,在快速连续启动和关闭实例的基准测试场景中出现了初始化/终止的问题。

如果你对这一领域感兴趣,建议阅读InferenceMax的公告和文章。这是一篇有趣的读物,以幽默的方式详细描述了遇到的技术挑战。

Bruno Ferreira是Tom’s Hardware的撰稿人,他拥有数十年的PC硬件及相关配件经验,并且是一名开发者。他对细节有着执着的追求,喜欢就自己热爱的话题长篇大论。不这样做时,他通常在玩游戏,或者参加现场音乐会和音乐节。

(以上内容均由Ai生成)

你可能还想读

印尼副部长呼吁谨慎使用AI进行公共沟通

印尼副部长呼吁谨慎使用AI进行公共沟通

快速阅读: 印度尼西亚通信和数字事务部副部长Nezar Patria呼吁公共关系专业人员谨慎、道德地使用AI,强调AI虽具潜力,但需人类监督与伦理责任,确保沟通质量与真实性。 雅加达(ANTARA)- 印度尼西亚通信和数字事务部副部长Nez […]

发布时间:2025年10月23日
名人及AI巨头呼吁停止追求超智能

名人及AI巨头呼吁停止追求超智能

快速阅读: 超过700名科学家、政治人物和名人呼吁暂停开发超人工智能,直至技术安全可控且获公众支持。未来生命研究所发布公开信,强调当前AI发展路径与公众期望、安全性及伦理标准脱节。 超过700名科学家、政治人物和名人,包括哈里王子、理查德· […]

发布时间:2025年10月23日
保守活动人士因谷歌AI生成虚假信息起诉谷歌

保守活动人士因谷歌AI生成虚假信息起诉谷歌

快速阅读: 保守活动人士罗比·斯塔巴克因谷歌AI系统生成关于他的虚假信息,将其诉至特拉华州法院,要求至少1500万美元赔偿。谷歌称此为Bard误判所致,已尽力处理。 保守活动人士罗比·斯塔巴克周三对谷歌提起诉讼,指控这家科技巨头的人工智能系 […]

发布时间:2025年10月23日
拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

快速阅读: 拉尔夫劳伦与微软合作推出AI对话购物工具“Ask Ralph”,提供个性化风格灵感,强调技术应提升品牌体验而非目的本身,展现AI个性化体验趋势。 9月,拉尔夫劳伦(与微软合作)发布了“Ask Ralph”,这是一款被描述为“由人 […]

发布时间:2025年10月23日
荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

快速阅读: 荣耀董事长吴晖宣布转型为AI终端生态公司,提出1 x 3 x N战略,涵盖HONOR AI Connect平台及多项赋能措施,推动AI场景化落地,涉及教育、家居、健康等多领域。 感谢IT之家网友 風見暉一 的线索投递! IT之家 […]

发布时间:2025年10月23日
微软Photos推AI绘图与智能重塑新功能

微软Photos推AI绘图与智能重塑新功能

快速阅读: 微软在其Photos应用中推出AI驱动的Restyle Image和Image Creator功能,前者可智能重塑照片风格,后者能根据描述生成高质量图像,均支持隐私保护,旨在提升图像创作体验。 微软近日在其 Photos(照片) […]

发布时间:2025年10月23日
2025新一代人工智能创业大赛启动 全球招募火热进行中

2025新一代人工智能创业大赛启动 全球招募火热进行中

快速阅读: 网易传媒启动2025新一代人工智能创业大赛,聚焦AI新技术与应用,设三大赛道,面向A轮前团队,奖金总额100万元,提供多维指导与资源支持。 2025年10月22日,网易传媒正式启动 “2025新一代人工智能创业大赛”,面向全球创 […]

发布时间:2025年10月23日
谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

快速阅读: 谷歌发布量子芯片Willow,成功运行“量子回声”算法,实现首个可验证的量子优势,比超级计算机快13,000倍,为新药研发和材料科学开辟新途径。 继量子计算研究团队荣获诺贝尔物理学奖之后,谷歌再次取得突破性进展。当地时间10月2 […]

发布时间:2025年10月23日