仔细看看 Dynamo，Nvidia 的 AI 推理“操作系统”

快速阅读: 据《The Register》最新报道，英伟达在GTC大会发布名为Dynamo的软件框架，旨在优化大规模AI推理。Dynamo可将预处理和解码分配到不同加速器，并具备提示路由和低延迟通信功能。它能提升推理性能，与多种模型服务软件库兼容，适用于英伟达GPU。

本周，在英伟达的GPU技术大会（GTC）上，Blackwell超版以及即将推出的Vera和Rubin CPU和GPU成为热议焦点。然而，这次年度开发者活动中最值得关注的发布之一并不是芯片，而是一个名为Dynamo的软件框架，旨在应对大规模AI推理的挑战。

在GTC大会上，英伟达首席执行官黄仁勋将其形容为“AI工厂的操作系统”，并将其与引发工业革命的实际发电机相提并论。“发电机是启动上次工业革命的首个工具，”首席执行官说道，“能源工业革命——水转化为电能。”

简单来说，这个开源推理套件旨在更好地优化TensorRT LLM、SGLang和vLLM等推理引擎，以便在大量GPU上尽可能快速且高效地运行。

实际上，推理过程比表面看起来要复杂得多。在高层次上，大型语言模型（LLM）的输出性能可以分为两大类：预处理和解码。预处理取决于GPU的浮点运算矩阵加速器处理输入提示的速度。提示越长——例如总结任务——通常所需时间就越长。

另一方面，解码才是大多数人关注的LLM性能指标，相当于GPU多快能生成实际的标记作为对用户提示的响应。

在高层次上，大型语言模型（LLM）的输出性能可以分为两大类：预处理和解码。预处理取决于GPU的浮点运算矩阵加速器处理输入提示的速度。提示越长——例如总结任务——通常所需时间就越长。

只要GPU内存足够容纳模型，解码性能通常是内存速度和生成标记数量的函数。具有8TB/s内存带宽的GPU比具有3.35TB/s内存带宽的GPU快两倍甚至更多。

当需要为更多用户提供更大规模的模型时，事情开始变得复杂起来，就像你可能在AI研究助理或推理模型中看到的那样。

大型模型一般会被分散到多个GPU上，这种方式的实现对性能和吞吐量的影响非常显著，这一点黄仁勋在主题演讲中详细探讨过。

从这张英伟达CEO黄仁勋主题演讲的幻灯片可以看出，推理性能会因模型分布方式的不同而发生巨大变化。该图表显示了每秒生成的令牌数与每兆瓦每秒的总体令牌数……点击放大。

“在帕累托前沿之下，有数百万种可能的配置方案我们可以用来配置数据中心，”他说。“我们可以并行化、分割工作并以多种方式分片工作。”

他的意思是，根据你的模型如何并行化，你可能会同时支持数百万个并发用户，但每位用户的处理速度仅为每秒10个令牌。与此同时，另一种组合可能只能同时处理几千个请求，但在眨眼之间就能生成数百个令牌。

据黄仁勋称，如果你能找到这条曲线上哪种工作负载能提供理想的单个性能组合，同时实现最大可能的吞吐量，那么你就可以为你的服务收取溢价，同时减少运营开支。我们想象这至少是一些LLM提供商在扩展其生成性应用和服务以满足越来越多客户时所进行的平衡行为。

调整Dynamo

找到性能与吞吐量之间的最佳平衡是Dynamo的核心功能之一。

除了为用户提供关于专家、管道或张量并行的最佳组合建议外，Dynamo还将预处理和解码分配到不同的加速器上。

据英伟达称，带有Dynamo的GPU规划器会根据需求确定多少加速器应专门用于预处理和解码。

除了为用户提供关于专家、管道或张量并行的最佳组合建议外，Dynamo还将预处理和解码分配到不同的加速器上。

然而，Dynamo不仅仅是一个GPU分析工具。该框架还具备提示路由功能，能够识别并引导重复请求至特定的GPU组，以提升键值（KV）缓存命中率。

如果你不了解的话，KV缓存代表了模型在任意时刻的状态。因此，如果有多个用户短时间内提出相似问题，模型可以直接从缓存中提取结果，而非反复重新计算模型状态。

除了智能路由功能，Dynamo还配备了低延迟通信库从而加速GPU间的通信，并且有一个负责提升响应速度并缩短等待时间的内存管理子系统，用于推送或拉取KV缓存数据从HBM到系统内存或冷存储。

对于基于Hopper的系统运行Llama模型，英伟达宣称Dynamo能使推理性能提升一倍。而对于更大的Blackwell NVL72系统，英伟达宣称在启用框架后，DeepSeek-R1相较Hopper的表现提升了30倍。

英伟达在CEO表示量子计算还需数十年才能实用后不久便开始投资量子计算。

英伟达的Vera Rubin CPU和GPU路线图规划了功率高达600千瓦的高能耗设备路径。

英伟达希望借助DGX Station和Spark PC将GB300超级芯片放置在用户桌面上。

英伟达的Blackwell Ultra GPU将配备288GB的HBM。

广泛的兼容性

尽管Dynamo显然是针对英伟达的硬件和软件生态系统进行了优化，就像它替代的Triton推理服务器一样，该框架旨在与流行的模型服务软件库（如vLLM、PyTorch和SGLang）无缝集成。

这意味着，如果你在异构计算环境中工作，该环境除了英伟达GPU外还包含许多AMD或英特尔加速器，你无需额外认证或维护其他推理引擎，而是可以继续使用vLLM或SGLang，如果你已经在使用这些工具的话。

显然，Dynamo无法兼容AMD或英特尔硬件，但它能在所有基于Ampere架构的英伟达GPU上运行。所以如果你还在为一堆A100s烦恼，你依然能从中获益。

英伟达已经发布了在GitHub上使用Dynamo入门的说明，并且还将通过容器镜像（他们现在称之为NIM）提供框架，以简化部署。

现在阅读：

英伟达将AI目光转向企业

获取我们的科技资源

(以上内容均由Ai生成)

你可能还想读