Nvidia GPU 路线图证实了这一点:摩尔定律已死并被埋葬

发布时间:2025年3月30日    来源:szf
Nvidia GPU 路线图证实了这一点:摩尔定律已死并被埋葬

快速阅读: 据《The Register》最新报道,英伟达CEO黄仁勋在GTC大会透露未来GPU计划,包括功率高达600千瓦的机架系统。尽管面临工艺和技术挑战,但此举为合作伙伴提供了准备时间,同时也为竞争对手创造了机会。

正如黄仁勋常说的那样,摩尔定律已死——而在本月的英伟达GTC大会上,这家GPU巨头的首席执行官无意间透露了计算扩展法则目前面临的困境有多严重。在台上,黄仁勋不仅展示了下一代Blackwell Ultra处理器,还详细介绍了未来两代加速计算平台的诸多细节,其中包括一个功率高达600千瓦、包含576个GPU的机架规模系统。此外,我们还得知,即将推出的GPU家族计划于2028年面世,以物理学家理查德·费曼的名字命名。这听起来是不是有些夸张?

芯片制造商偶尔披露其技术路线图并不罕见,但一次性公布这么多信息却很少见。这是因为英伟达正面临多重挑战。它不仅遇到了工艺技术停滞的问题,还遭遇了其他超出其掌控范围的障碍。对于密切关注行业动态的人来说,这些挑战或许并不令人意外。分布式计算一直像一场追逐“瓶颈”的游戏,而人工智能可能是这场游戏的终极体现。

最明显的挑战之一围绕着计算扩展展开。近年来,工艺技术的进步几乎陷入停滞。尽管还有一些可调整的参数,但它们变得越来越难以改变。面对这些限制,英伟达的战略非常简单:尽可能多地在每个计算节点中增加硅片的数量。如今,英伟达最密集的系统——即一个机架——利用其高速1.8TB/s的NVLink架构,将72个GPU整合到一个计算域中。随后,通过InfiniBand或以太网将八台或多台这样的机架连接起来,以满足所需的计算和内存容量。

在GTC大会上,英伟达透露其计划将这一数字提升至每机架144个GPU,最终达到576个GPU。然而,扩展不仅仅局限于机架;芯片封装也在进行类似的扩展。这一点在去年Blackwell加速器发布时就已经显现出来。这些芯片相较于Hopper性能提升了五倍,听起来非常出色,直到你意识到它需要两倍的晶圆数量、一种新的4位数据类型以及额外的500瓦功率才能实现。

实际情况是,以FP16为基准,英伟达顶级规格的Blackwell芯片仅比GH100快约1.25倍,在1250个密集浮点运算TFLOPS与989之间——只是碰巧有两个芯片。

同样的情况在去年Blackwell加速器发布时也得到了验证。这些芯片相较于Hopper性能提升了五倍,听起来很棒,直到你意识到它需要两倍的晶圆数量、一种新的4位数据类型以及额外的500瓦功率才能实现。到2027年,英伟达首席执行官黄仁勋预计随着Rubin Ultra NVL576的推出,机架的功耗将达到600千瓦。

我们尚不清楚英伟达计划为其下一代芯片采用哪种工艺技术,但可以确定的是,Rubin Ultra将继续这一趋势,从两个光罩限制的芯片跃升至四个。即便效率提高了大约20%,黄仁勋预计仍能脱离台积电2nm工艺,但这依旧会是一个非常热的封装。

不仅仅是计算方面的问题,还有内存。你们当中目光敏锐的人可能会注意到Rubin到Rubin Ultra之间在容量和带宽上的显著增长——每包容量从288GB提升到1TB。大约一半来源于更快、容量更高的内存模块,但另一半则来自于将用于内存的硅片数量翻倍,从Blackwell和Rubin的八个模块增加到Rubin Ultra的十六个模块。

更高的容量意味着英伟达可以在单个封装中塞入更多的模型参数,大约2万亿个FP4参数,或者每个“GPU”(现在他们开始计算单个晶圆而不是插座)5000亿个参数。HBM4e看起来也能有效将内存带宽提高一倍,超过HBM3e。带宽预计将从今天的Blackwell芯片每秒约4TB跳升至Rubin Ultra的约8TB。

不幸的是,除非工艺技术有重大突破,否则未来的英伟达GPU封装可能会装载更多的硅片。

好消息是,工艺进步并不是唯一扩展计算或内存的方法。一般来说,从16位降到8位精度可以有效将吞吐量翻倍,同时还将给定模型的内存需求减半。问题是,英伟达正在用尽可以降低的位数来提升性能。从Hopper到Blackwell,英伟达减少了四位,增加了两倍的硅片,并声称获得了五倍的浮点性能提升。

但在四舍五入精度以下,LLM推理变得相当困难,困惑度快速升高。尽管如此,关于超低精度量化的研究正在进行,甚至低至1.58位,同时保持准确性。

减少精度并不是获取FLOPS的唯一方法。你还可以减少高精度数据类型的芯片面积,因为AI工作负载并不需要这些。

我们在Blackwell Ultra上看到了这一点。英伟达加速计算业务部门副总裁伊恩·巴克在一次采访中告诉我们,他们实际上降低了芯片的双精度(FP64)张量核心性能,以换取50%更多的4位FLOPS。

这是否意味着FP64在英伟达即将被淘汰,还有待观察,但如果你真的关心双精度性能,AMD的GPU和APU应该已经排在你的优先考虑名单前列了。无论如何,英伟达的发展路径已十分清晰:其计算平台将变得更大、更密集、更热、更耗电。正如黄仁勋上周在记者问答中所说,机架的实际极限取决于你能为其提供多少电力。“一个数据中心现在是250兆瓦。这大概是每机架的合理上限。我认为其余的就是细节问题了,”黄仁勋表示。“如果你说一个数据中心是一千兆瓦,我会说每机架达到一千兆瓦听起来像是一个合理的上限。”

无法回避电力问题

自然地,600千瓦的机架对数据中心运营商来说是一个巨大的挑战。

需要明确的是,冷却超密集计算的兆瓦级并非新问题。Cray、Eviden和联想等公司的技术人员多年来已解决了这一问题。变化在于,我们现在谈论的不是每年少数几个精品计算集群。我们说的是几十个集群,其中一些集群大到足以让Top500榜单上的最强大超级计算机退位,如果用Linpack捆绑200,000个Hopper GPU能赚钱的话。

在这些规模下,高度专业化的低产量热管理和电源输送系统难以满足需求。不幸的是,数据中心供应商——你知道那些销售让你价值数百万美元的NVL72机架所需的不那么吸引人的小部件的人——才刚刚开始跟上需求。

我们怀疑这就是为什么迄今为止宣布的许多Blackwell部署都是针对风冷的HGX B200,而不是黄仁勋一直在吹捧的NVL72。这些包含八个GPU的HGX系统可以在许多现有的H100环境中部署。英伟达多年来一直采用30-40千瓦的机架配置,所以跳到60千瓦并不是太大的飞跃,而且即使降到每机架两到三台服务器仍然是一个选项。

NVL72是一种受超大规模数据中心启发的机架级设计,具有直流母线、电源滑橇和前置网络。在120千瓦液冷计算的情况下,在现有设施中部署多个这样的设备很快就会变得棘手。一旦英伟达的600千瓦巨型机架在2027年底首次亮相,情况只会变得更加困难。

这就是黄仁勋一直唠叨的“人工智能工厂”发挥作用的地方——与施耐德电气等合作伙伴共同打造的定制化数据中心,以应对人工智能的电力和热管理需求。

不出所料,就在详细说明其未来三年的GPU路线图后的一周,施耐德宣布在美国投资7亿美元,以扩大生产所有必需的电源和冷却组件。

当然,拥有为这些超高密度系统供电和冷却的必要基础设施并不是唯一的问题。将电力输送到数据中心本身也是个难题,再次,这主要不在英伟达的控制范围内。

尽管我们希望看到核能复兴,但即使是最好的预测也表明小型模块化反应堆的部署要到2030年代才会实现。

深入研究Dynamo,英伟达的AI推理“操作系统”

微软退出数据中心租赁(可能)并不是人工智能热潮消退的迹象

施耐德电气向美国业务注入7亿美元,以应对人工智能数据中心需求激增

英伟达的薇拉·鲁宾CPU和GPU路线图规划了600千瓦高温机架的路径

紧随其后

需要明确的是,这些障碍并非英伟达独有。AMD、英特尔以及每一个争夺英伟达市场份额的云服务提供商和芯片设计师迟早都会遇到这些问题。英伟达只是第一个遇到这些问题的公司。

虽然这肯定有不利之处,但它也让英伟达处于一个独特的位置,可以引领未来数据中心功率与热设计方向。

正如我们之前提到的,黄仁勋愿意透露其下一代三种GPU技术和第四代的初步信息的原因是,这样其基础设施合作伙伴就能在它们最终到来时做好准备。

“我向世界传达了英伟达未来三四年的发展路线图,现在每个人都可以计划了,”黄仁勋表示。

另一方面,这些努力也为竞争芯片制造商铺平了道路。如果英伟达设计了一个120千瓦或现在的600千瓦的机架,并且托管提供商和云运营商愿意支持它,那么AMD或英特尔现在就可以在其自己的机架级平台上装入同样多的计算能力,而不用担忧客户会把它们放在哪里。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日