仔细看看 Dynamo,Nvidia 的 AI 推理“操作系统”

发布时间:2025年3月24日    来源:szf
仔细看看 Dynamo,Nvidia 的 AI 推理“操作系统”

快速阅读: 据《The Register》最新报道,英伟达在GTC大会发布名为Dynamo的软件框架,旨在优化大规模AI推理。Dynamo可将预处理和解码分配到不同加速器,并具备提示路由和低延迟通信功能。它能提升推理性能,与多种模型服务软件库兼容,适用于英伟达GPU。

本周,在英伟达的GPU技术大会(GTC)上,Blackwell超版以及即将推出的Vera和Rubin CPU和GPU成为热议焦点。然而,这次年度开发者活动中最值得关注的发布之一并不是芯片,而是一个名为Dynamo的软件框架,旨在应对大规模AI推理的挑战。

在GTC大会上,英伟达首席执行官黄仁勋将其形容为“AI工厂的操作系统”,并将其与引发工业革命的实际发电机相提并论。“发电机是启动上次工业革命的首个工具,”首席执行官说道,“能源工业革命——水转化为电能。”

简单来说,这个开源推理套件旨在更好地优化TensorRT LLM、SGLang和vLLM等推理引擎,以便在大量GPU上尽可能快速且高效地运行。

实际上,推理过程比表面看起来要复杂得多。在高层次上,大型语言模型(LLM)的输出性能可以分为两大类:预处理和解码。预处理取决于GPU的浮点运算矩阵加速器处理输入提示的速度。提示越长——例如总结任务——通常所需时间就越长。

另一方面,解码才是大多数人关注的LLM性能指标,相当于GPU多快能生成实际的标记作为对用户提示的响应。

在高层次上,大型语言模型(LLM)的输出性能可以分为两大类:预处理和解码。预处理取决于GPU的浮点运算矩阵加速器处理输入提示的速度。提示越长——例如总结任务——通常所需时间就越长。

只要GPU内存足够容纳模型,解码性能通常是内存速度和生成标记数量的函数。具有8TB/s内存带宽的GPU比具有3.35TB/s内存带宽的GPU快两倍甚至更多。

当需要为更多用户提供更大规模的模型时,事情开始变得复杂起来,就像你可能在AI研究助理或推理模型中看到的那样。

大型模型一般会被分散到多个GPU上,这种方式的实现对性能和吞吐量的影响非常显著,这一点黄仁勋在主题演讲中详细探讨过。

从这张英伟达CEO黄仁勋主题演讲的幻灯片可以看出,推理性能会因模型分布方式的不同而发生巨大变化。该图表显示了每秒生成的令牌数与每兆瓦每秒的总体令牌数……点击放大。

“在帕累托前沿之下,有数百万种可能的配置方案我们可以用来配置数据中心,”他说。“我们可以并行化、分割工作并以多种方式分片工作。”

他的意思是,根据你的模型如何并行化,你可能会同时支持数百万个并发用户,但每位用户的处理速度仅为每秒10个令牌。与此同时,另一种组合可能只能同时处理几千个请求,但在眨眼之间就能生成数百个令牌。

据黄仁勋称,如果你能找到这条曲线上哪种工作负载能提供理想的单个性能组合,同时实现最大可能的吞吐量,那么你就可以为你的服务收取溢价,同时减少运营开支。我们想象这至少是一些LLM提供商在扩展其生成性应用和服务以满足越来越多客户时所进行的平衡行为。

调整Dynamo

找到性能与吞吐量之间的最佳平衡是Dynamo的核心功能之一。

除了为用户提供关于专家、管道或张量并行的最佳组合建议外,Dynamo还将预处理和解码分配到不同的加速器上。

据英伟达称,带有Dynamo的GPU规划器会根据需求确定多少加速器应专门用于预处理和解码。

除了为用户提供关于专家、管道或张量并行的最佳组合建议外,Dynamo还将预处理和解码分配到不同的加速器上。

然而,Dynamo不仅仅是一个GPU分析工具。该框架还具备提示路由功能,能够识别并引导重复请求至特定的GPU组,以提升键值(KV)缓存命中率。

如果你不了解的话,KV缓存代表了模型在任意时刻的状态。因此,如果有多个用户短时间内提出相似问题,模型可以直接从缓存中提取结果,而非反复重新计算模型状态。

除了智能路由功能,Dynamo还配备了低延迟通信库从而加速GPU间的通信,并且有一个负责提升响应速度并缩短等待时间的内存管理子系统,用于推送或拉取KV缓存数据从HBM到系统内存或冷存储。

对于基于Hopper的系统运行Llama模型,英伟达宣称Dynamo能使推理性能提升一倍。而对于更大的Blackwell NVL72系统,英伟达宣称在启用框架后,DeepSeek-R1相较Hopper的表现提升了30倍。

英伟达在CEO表示量子计算还需数十年才能实用后不久便开始投资量子计算。

英伟达的Vera Rubin CPU和GPU路线图规划了功率高达600千瓦的高能耗设备路径。

英伟达希望借助DGX Station和Spark PC将GB300超级芯片放置在用户桌面上。

英伟达的Blackwell Ultra GPU将配备288GB的HBM。

广泛的兼容性

尽管Dynamo显然是针对英伟达的硬件和软件生态系统进行了优化,就像它替代的Triton推理服务器一样,该框架旨在与流行的模型服务软件库(如vLLM、PyTorch和SGLang)无缝集成。

这意味着,如果你在异构计算环境中工作,该环境除了英伟达GPU外还包含许多AMD或英特尔加速器,你无需额外认证或维护其他推理引擎,而是可以继续使用vLLM或SGLang,如果你已经在使用这些工具的话。

显然,Dynamo无法兼容AMD或英特尔硬件,但它能在所有基于Ampere架构的英伟达GPU上运行。所以如果你还在为一堆A100s烦恼,你依然能从中获益。

英伟达已经发布了在GitHub上使用Dynamo入门的说明,并且还将通过容器镜像(他们现在称之为NIM)提供框架,以简化部署。

现在阅读:

英伟达将AI目光转向企业

获取我们的科技资源

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日