英伟达公布新细节,提升GPU性能与效率
快速阅读: 英伟达推出GB10超级芯片,采用3纳米工艺,由CPU和GPU组成,通过NVLink互连,功耗低、内存大,适用于AI开发和模型微调,价格2999美元以上,仍受开发者欢迎。
2023年,英伟达推出了新的超级芯片架构,通过高速NVLink互连将CPU与GPU连接起来,为加速工作负载引入了一种新的编程模型,相比之下,PCIe显得非常缓慢。
英伟达的Project Digits项目后来更名为DGX Spark,旨在通过将缩小版的超级芯片架构GB10推向市场,解决这一问题,使开发者能够在数据中心或云环境之外利用这项技术。尽管价格高达2999美元以上,但这款产品仍受到开发者的欢迎。
本周在Hot Chips会议上,GB10首席架构师安迪·斯肯德详细介绍了该架构。GB10采用台积电的3纳米制造技术,由两个不同的计算芯片组成:一个由联发科设计的CPU芯片,另一个由英伟达设计的GPU芯片。这两个芯片通过台积电的2.5D先进封装技术连接,并使用英伟达专有的NVLink芯片间互连,提供每秒600GB的双向带宽。
GB10的CPU芯片(S-die)包含20个Arm v9.2核心,分为两个集群,每个集群分别有10个X925核心和10个Cortex A725核心。这些计算集群由32MB的L3缓存(每个集群16MB)和16MB的L4缓存支持,后者用于平滑GB10计算引擎之间的通信。
关于GB10的图形芯片(G-die)的信息较少。英伟达表示,该芯片的峰值FP4性能约为1 petaFLOP,稀疏模式下约为31 teraFLOPS的单精度计算(FP32)。这使得GB10及其衍生产品Spark的AI性能与RTX 5070相当,而后者的价格约为550美元。然而,浮点性能并非全部。
首先,GB10的功耗更低。RTX 5070的TDP为250瓦,而GB10仅为140瓦。此外,GB10配备了128GB的VRAM,远超RTX 5070的12GB。对于DGX Spark设计的工作负载而言,充足的VRAM容量至关重要,即使在FP4精度下,每个十亿参数的模型权重也需要约500MB的内存。
与更大的GB200和GB300不同,GB10没有使用超高速HBM内存。由于功耗和成本限制,英伟达选择了LPDDR5x内存,时钟速度为9400MT/s。结合CPU芯片的256位内存总线,GB10的内存带宽在273GB/s至301GB/s之间。需要注意的是,内存带宽是推理性能的关键指标——内存越快,芯片生成标记的速度就越快。使用LPDDR内存表明英伟达在内存容量和带宽之间做出了妥协。
DGX Spark不仅用于运行本地模型,还被定位为原型开发和模型微调的开发平台。微调是一项计算和内存密集型任务,即使使用低秩适应和量化来最小化计算需求,计算和内存容量也比带宽更重要。
据英伟达称,Spark的128GB LPDDR5x内存足以微调700亿参数的模型,并对最多2000亿参数的模型进行推理。如果需要更大的容量,GB10可以与一对200GbE端口的ConnectX-7 NIC配对,使工作负载可以在两台DGX Spark之间分布,从而有效加倍其微调和推理能力。
更重要的是,由于GB10基于与数据中心版本相同的技术,因此在小型工作站上开发的工作负载无需重构即可投入生产部署。
(以上内容均由Ai生成)