关于未来的一些想法 “Doudna” NERSC-10 超级计算机

快速阅读: 据《下一个平台》称，美国能源部选定戴尔和NVIDIA为NERSC-10超算系统供应商，系统预算约2.5亿至3亿美元，采用NVIDIA Blackwell GPU，预计2027年投入运行。

无论对错，我们仍然相信我们生活在一个世界，在这个世界里，传统高性能计算（HPC）的高精度模拟和建模仍然比将人类全部知识整合并与我们生活的数字痕迹混合，以创建一个覆盖全球的自动化系统更为重要。这种自动化将使我们所有人都有很少的事情可做，并且在财富和权力方面也相应地有所体现，无论是对我们自己还是对控制人工智能的人。我们仍然认为科学家可以创造核聚变并拯救世界，治愈癌症和其他可怕的疾病并挽救生命，模拟整个宇宙，甚至到亚原子粒子，并创造知识，也许甚至是智慧。这就是为什么我们仍然关心国家超级计算设施及其学术类比，他们仍在努力进行推动模拟和建模技术前沿的艰苦工作，在这个已经因生成式AI（GenAI）而变得极度夸张的世界中。加速HPC与早期机器学习的结合早已被超越，正如我们所预测的那样，现在HPC正在适应AI工作负载的混合精度和低精度方式，因为AI的尾巴不仅控制了HPC，还发展成了一头巨鲸，HPC不得不被迫跟随。考虑到这一点，我们一直在考虑自2023年4月起公开招标的未来NERSC-10系统，并且最近已授予戴尔，与其深度合作的计算引擎和互连巨头Nvidia一起，如果要诚实地说，Nvidia在系统中承担了大部分工作。惠普企业（Hewlett Packard Enterprise）获得了将超大规模机器带到橡树岭国家实验室（使用“Frontier”系统，2022年5月）、阿贡国家实验室（使用备受争议的“Aurora”系统，2023年6月上市，比原计划晚了五年，经历了至少两次架构变化）以及劳伦斯利弗莫尔国家实验室（使用“El Capitan”系统，2024年11月）的合同。随着HPE吞并了SGI和Cray，而Dell通常不参与大型HPC系统交易，IBM退出了其长期参与的HPC系统业务（因为它无法从中盈利），Nvidia和Intel对成为主要承包商并不特别感兴趣，Atos也不允许在美国国家实验室竞标，我们认为HPE在这里是胜券在握的，但会使用不同的计算和网络架构插入其“Shasta”Cray EX系统设计中。我们确实正确地预测了Nvidia赢得比赛，但我们没有预料到Dell会成为主要承包商。鉴于Dell通常不这样做，这是可以理解的。我们有一个理论，即美国能源部以及中国政府部门的高层官员倾向于拥有多个供应商以分散风险，历史上，能源部和美国国防高级研究计划局（DARPA）的同行曾资助了大量的超级计算机开发，他们在1990年代和2000年代曾有六家HPC系统制造商签约，经常采用竞争性的架构。NERSC-10采购的首席架构师和高级技术组负责人Nick Wright告诉The Next Platform，这是一个不错的理论，但并非如此运作。“我们发布了RFP，并选择了为NERSC及其用户带来最佳价值的解决方案，”Wright简洁地解释道，“只是这样而已。”不过，我们没想到劳伦斯伯克利国家实验室——国家能源研究科学计算中心的所在地——会使用类似于Frontier和El Capitan中部署的CPU和GPU配置的变体——而且任何国家实验室都不可能在Aurora延迟和英特尔制造问题之后押注于英特尔的“Falcon Shores”GPU加速器。我们在电机方面是对的，但显然不是因为我们提到的逻辑原因。无论如何，能正确是件好事。目前，NERSC、戴尔和Nvidia对于NERSC-10系统的设计并没有说太多，但我们有一些数据点和一些猜测，可以解释为何选择戴尔作为主要承包商，而不是HPE，以及为何选择Nvidia作为计算引擎和互连供应商，而不是AMD。显然，NERSC-10机器自身也经历了一些波折。NERSC-10的建议书（RFP）文件于2023年4月发布，系统建设和非重复工程（NRE）附加费用的合同预计将在2024年第四季度授予。显然没有发生，NERSC-10系统的奖项于6月2日宣布。NERSC-10的早期访问系统预计将在2025年安装，系统交付计划在2026年下半年，全面生产使用则定于2027年，这些都在最初的RFP文档中。这是当时NERSC超级计算机路线图：去年十月，我们得知了一个更新的路线图，显示了NERSC的升级计划以及橡树岭的未来“Discovery”系统和阿贡的未来“Helios”系统的计划。这表明当前的“Perlmutter”NERSC-9机器，第一台上市的Cray Shasta机器，其运行寿命延长了两年，NERSC-10试点系统将于2026年出现，NERSC-10机器将在2028年秋季至2032年底运营。看看这里：显然，在我们于2024年10月发表了《美国迈向百亿亿次计算及更远的阶梯》之后，关于美国国家实验室的超级计算机路线图，计划又回到了类似上述原始NERSC路线图的情况，根据Wright的说法。（没有人向我们提供更新，而当时在劳伦斯伯克利工作的发布此图表的人也没有更新路线图，据我们所知。）不管怎样，目前NERSC-10机器的计划是获得一个相对较小的测试系统，基于当前的Nvidia“Grace”CPU和“Blackwell”GPU加速器——不清楚是哪种Blackwell GPU变种——预计在2025年秋季安装，而完整的NERSC-10机器基于未来的Nvidia“Vera”CPU和“Rubin”GPU，预计将在2026年秋季到达LBNL。顺便说一句，我们喜欢同义词和昵称，NERSC-10机器被命名为“Doudna”，以加州大学伯克利分校的生物化学家Jennifer Doudna命名，她与Emmanuelle Charpentier共同发明了CRISPR基因编辑方法。Doudna和Charpentier因这项工作于2020年获得了诺贝尔化学奖。除了戴尔作为主要承包商和Nvidia作为CPU和GPU计算引擎以及用于连接Doudna集群节点的800 Gb/sec Quantum 2 InfiniBand互连的供应商外，我们对系统了解不多。我们推测出系统的预算——不包括系统和NRE费用，也不包括系统、NRE和运营预算，仅指系统预算——大约在2.5亿到3亿美元之间。对于HPC超级计算机来说，这是一个相当可观的预算。在生成式AI热潮中，这只是一个基础级别的系统，而在当今世界，单个系统训练最大的大语言模型通常需要花费10亿到20亿美元。重要的是，这么多钱并不能买到你想象中的那么多聚合FP64高精度浮点计算能力，正如我们在2月份讨论的《评估HPC工作在64位精度下的计算引擎》一文中所提到的。而这对LBNL和其他HPC中心如何重新设计他们的应用程序具有重要意义，从而创建使用混合精度收敛到与仅在FP64模式下运行的算法相同答案的求解器。或者，可能使用AI技术以其他方式增强HPC应用程序。“作为采购的一部分，我们发布了一套基准测试工具，其中包含一些AI应用，以及一些更传统的FP64建模和仿真应用，”Wright暗示道。“这引发了与供应商社区关于你们所说的许多讨论。实际上，我们在架构上有一些有趣的创新。不幸的是，我现在不能谈论其中的任何内容。”确切的计划是有意模糊的，我们认为Nvidia不想过多谈论未来的Rubin GPU，尽管它已经在非常一般的方式上声明了其计算和网络到2027年的路线图。我们知道Doudna系统在最大功耗下消耗不到20兆瓦，并且适合4,784平方英尺的系统占地面积。由于预期的Vera-Rubin系统来自Nvidia的计算密度，NERSC的能源效率至关重要，这意味着某种形式的液冷。没有改变的是，通过明年将当前Perlmutter系统上的应用程序切换到Doudna系统，可以提高它们的性能10倍。劳伦斯伯克利拥有量子色动力学、材料、分子动力学、深度学习、基因组学和天体物理学的应用程序，用来衡量这个10倍的性能提升。我们期待看到这些应用程序的变化。如果AI应用程序提升了非常多——多个10倍——而HPC应用程序提升了2到3倍，中间还有其他的，那么总体平均下来至少能达到10倍。这个10倍不仅仅是系统中CPU和GPU的峰值或持续FLOPS评级的提升目标——或者更准确地说，几年前可能是这样，但考虑到GPU的架构中有大量低精度性能，FP64性能的提升幅度并不大，因此FP64 FLOPS的10倍提升不再是“理所当然”的。NERSC还希望让Doudna系统更直接地与正在进行的科学研究联系起来，并让研究人员更快地校准他们的系统和应用程序以获得洞察力。Wright这样解释这个计划：这告诉我们Doudna将如何更紧密地与科学仪器集成，但它仍然没有告诉我们它可能是什么。由于不知道NERSC-10机器的价格，去年只有那些提出投标的人知道，很难猜测架构。我们现在知道了价格，但不知道确切的架构以及LBNL愿意做出哪些权衡以获得一台能在现场运行五年并将其科学加速10倍的机器。我们知道的是，Perlmutter系统于2021年5月开始运行，系统及其支持的成本为1.46亿美元，另外还花了400万美元给Nvidia用于将代码从CPU移植到GPU。Perlmutter有一个CPU-GPU分区，大部分计算都使用该分区，还有一个CPU-only分区用于运行遗留代码。Perlmutter的混合分区由搭载Nvidia“Ampere” A100 GPU加速器的AMD“Milan” Epyc 7763 CPU主机组成，使用“Rosetta” Slingshot 11互连将它们全部连接在一起。该机器的峰值FP64性能为113 petaflops，持续的高性能LINPACK性能为79.2 petaflops。我们不知道这1.46亿美元中有多少是用于硬件和系统软件（系统，按我们的说法），有多少是用于支持。假设支持费用占该价格的15%到20%，这并不是不合理，那么包括网络和存储在内的Perlmutter系统的成本可能在1.17亿到1.24亿美元之间。我们不妨将Perlmutter系统的成本定为1.2亿美元的中间值。根据Wright告诉我们的信息，我们知道Doudna系统的成本将在2.5亿到3亿美元之间。这比购买Perlmutter时分配的预算增加了2.1倍到2.5倍。对于五年的跨度来说，这是一笔巨大的预算增加，尤其是在对科学、研究和开发方面的任何支出都受到严格审查的时期。Blackwell B200 GPU插槽相比之前Ampere A100和Hopper H100 GPU的单片式GPU，采用了受光刻工艺限制的GPU小芯片。A100在张量核心上的FP64精度下标称性能为19.5 teraflops，而H100将其提升至60 teraflops。有趣的是，最适合HPC工作的Blackwell B200在FP64精度下的性能降至40 teraflops，我们估计Rubin B200最多可能达到80 teraflops。因此，从A100到R200的提升是4.1倍。如果Rubin R200保持FP4作为最低精度，并且由于插槽中包含两倍的芯片组，其性能仅翻倍，那么从A100在张量核心上FP16精度下的312 teraflops提升至R200在FP4精度下的约20,000 teraflops（同样在密集矩阵模式下）的AI性能将增长64.1倍。这是一次相当大的飞跃，应用中的混合数学精度和从A100到R200的提升可能会平均达到10倍。那么Doudna系统需要多大呢？一个Blackwell B200的价格大约在4万美元左右，而Nvidia推出时Hopper H100的标价约为22,500美元；Ampere A100在推出时的标价约为11,000美元。Rubin R200的价格可能高达6万美元，这是对一款能完成两倍FP64和两倍FP4工作的设备而言的50%的价格上涨。如果你假设Doudna系统的预算为3亿美元，并进一步假定GPU占系统成本的一半，那么你将获得2,500块Rubin R200 GPU，花费1.5亿美元，这将提供大约200 petaflops的FP64性能在密集矩阵的张量核心上，同时还能提供50 exaflops的FP4性能。我们认为，使用带有72个GPU插槽并具备内存一致性的机架规模节点对于HPC工作来说并不是必需的，但这样只需占用35个机架，不包括存储和网络。如果改用更稀疏的HGX R200系统，在八路内存域中使用GPU，将占用两倍的空间，即约70个机架——同样不包括存储和网络。目前已有数家AI模型训练公司拥有单系统内10万块GPU的机器，这些机器的建造成本在20亿到30亿美元之间。这些AI模型构建者正在谈论在2025年底至2026年期间将20万块GPU连接在一起的系统，并计划在未来不久实现100万块GPU的规模——成本将达数十亿美元。如果你假设Doudna系统的预算为3亿美元，并进一步假定GPU占系统成本的一半，那么你将获得2,500块Rubin R200 GPU，花费1.5亿美元，这将提供大约200 petaflops的FP64性能在密集矩阵的张量核心上，同时还能提供50 exaflops的FP4性能。我们认为，使用带有72个GPU插槽并具备内存一致性的机架规模节点对于HPC工作来说并不是必需的，但这样只需占用35个机架，不包括存储和网络。如果改用更稀疏的HGX R200系统，在八路内存域中使用GPU，将占用两倍的空间，即约70个机架——同样不包括存储和网络。这样的AI巨无霸可以进行的科学研究量是巨大的——但这不是它们的任务。与此同时，NERSC将试图在有限预算下帮助实现持续的核聚变。这对我们来说毫无意义，对你来说也一样。当然，Nvidia有可能给NERSC提供更好的交易，最终得到的机器性能可能远超这些数字所暗示的。这取决于美国政府有多强硬，以及Nvidia是否愿意采取强硬手段。也许Nvidia只是聪明地主动为DOE提供了一个极好的交易，并填满NERSC数据中心的电力极限。假设72个Rubin GPU插槽及其周围的CPU和网络接口消耗的功率大约是Blackwell GPU插槽的两倍，那么你将得到约70个机架，耗电20兆瓦。真是巧合。订阅我们的通讯每周精选亮点、分析和故事直接发送到您的邮箱。立即订阅相关文章HPC35 PB全闪存平衡操作2021年6月7日Nicole Hemsoth PrickettHPC,Store0上周，我们介绍了Perlmutter超级计算机，这是NERSC的下一代系统，很可能在世界最强大机器的Top 500榜单中占据第五位。在这篇文章中，我们讨论了计算能力和功能，但真正的明星是在……HPC美国迈向Exascale及更远的阶梯2024年10月8日Timothy Prickett MorganHPC3在某种程度上，全球主要的HPC中心都生活在未来。在一台teraflops、petaflops或exaflops超级计算机甚至尚未运行之前，中心的新团队就在努力定义五年后的工作负载可能是什么样子的，以便他们……HPC伯克利实验室为未来的NERSC-10超算系统开启投标2023年4月18日Timothy Prickett MorganHPC7位于劳伦斯伯克利国家实验室的国家能源研究科学计算中心（NERSC），作为美国能源部推动超算创新的关键设施，花费大量资金以确保至少一些供应商会设计和建造它们，已开启了对未来NERSC-10超算系统的投标。成为第一个评论的人留下回复取消回复您的电子邮件地址不会被公开。评论名称*电子邮件*网站Δ本网站使用Akismet来减少垃圾信息。了解您的评论数据如何被处理。

(以上内容均由Ai生成)