英伟达公布新细节，提升GPU性能与效率

发布时间：2025年8月28日来源：szf

快速阅读: 英伟达推出GB10超级芯片，采用3纳米工艺，由CPU和GPU组成，通过NVLink互连，功耗低、内存大，适用于AI开发和模型微调，价格2999美元以上，仍受开发者欢迎。

2023年，英伟达推出了新的超级芯片架构，通过高速NVLink互连将CPU与GPU连接起来，为加速工作负载引入了一种新的编程模型，相比之下，PCIe显得非常缓慢。

英伟达的Project Digits项目后来更名为DGX Spark，旨在通过将缩小版的超级芯片架构GB10推向市场，解决这一问题，使开发者能够在数据中心或云环境之外利用这项技术。尽管价格高达2999美元以上，但这款产品仍受到开发者的欢迎。

本周在Hot Chips会议上，GB10首席架构师安迪·斯肯德详细介绍了该架构。GB10采用台积电的3纳米制造技术，由两个不同的计算芯片组成：一个由联发科设计的CPU芯片，另一个由英伟达设计的GPU芯片。这两个芯片通过台积电的2.5D先进封装技术连接，并使用英伟达专有的NVLink芯片间互连，提供每秒600GB的双向带宽。

GB10的CPU芯片（S-die）包含20个Arm v9.2核心，分为两个集群，每个集群分别有10个X925核心和10个Cortex A725核心。这些计算集群由32MB的L3缓存（每个集群16MB）和16MB的L4缓存支持，后者用于平滑GB10计算引擎之间的通信。

关于GB10的图形芯片（G-die）的信息较少。英伟达表示，该芯片的峰值FP4性能约为1 petaFLOP，稀疏模式下约为31 teraFLOPS的单精度计算（FP32）。这使得GB10及其衍生产品Spark的AI性能与RTX 5070相当，而后者的价格约为550美元。然而，浮点性能并非全部。

首先，GB10的功耗更低。RTX 5070的TDP为250瓦，而GB10仅为140瓦。此外，GB10配备了128GB的VRAM，远超RTX 5070的12GB。对于DGX Spark设计的工作负载而言，充足的VRAM容量至关重要，即使在FP4精度下，每个十亿参数的模型权重也需要约500MB的内存。

与更大的GB200和GB300不同，GB10没有使用超高速HBM内存。由于功耗和成本限制，英伟达选择了LPDDR5x内存，时钟速度为9400MT/s。结合CPU芯片的256位内存总线，GB10的内存带宽在273GB/s至301GB/s之间。需要注意的是，内存带宽是推理性能的关键指标——内存越快，芯片生成标记的速度就越快。使用LPDDR内存表明英伟达在内存容量和带宽之间做出了妥协。

DGX Spark不仅用于运行本地模型，还被定位为原型开发和模型微调的开发平台。微调是一项计算和内存密集型任务，即使使用低秩适应和量化来最小化计算需求，计算和内存容量也比带宽更重要。

据英伟达称，Spark的128GB LPDDR5x内存足以微调700亿参数的模型，并对最多2000亿参数的模型进行推理。如果需要更大的容量，GB10可以与一对200GbE端口的ConnectX-7 NIC配对，使工作负载可以在两台DGX Spark之间分布，从而有效加倍其微调和推理能力。

更重要的是，由于GB10基于与数据中心版本相同的技术，因此在小型工作站上开发的工作负载无需重构即可投入生产部署。

(以上内容均由Ai生成)