Kioxia发布5TB高速闪存模块，助力AI GPU性能提升

发布时间：2025年8月24日来源：szf

快速阅读: 铠侠开发5TB高带宽闪存模块，带宽达64GB/s，专为GPU设计，比HBM容量大8-16倍，功耗低，适合AI数据中心，未来存储模块或与GPU竞争带宽优势。

铠侠开发了一款5TB高带宽闪存模块原型，带宽达到64GB/s。这款基于NAND的内存主要用于GPU。与HBM相比，高带宽闪存（HBF）将概念应用于NAND闪存，容量是基于DRAM的HBM的8-16倍。通过结合速度和持久存储，HBF能够高效访问大型AI数据集，同时降低功耗。铠侠将这款HBF模块的带宽提升至64GB/s，实现了这一能力。

通常提到“闪存存储”时，人们首先想到的是容量，其次是速度。即使是最新的PCIe 5.0 SSD——如三星9100 Pro，其速度也仅为14GB/s，远不能满足现代GPU和CPU的带宽需求。铠侠的新原型颠覆了这一预期：单个闪存模块提供5TB容量和64GB/s的持续带宽，采用PCIe 6.0接口。这相当于目前最快的PCIe 5.0驱动器的四倍以上，并接近HBM2E每堆栈的吞吐量。

关键在于系统的扩展方式；不同于传统的单个中央控制器管理整个NAND阵列——随着更多芯片和通道的增加，这种方式很快成为瓶颈——铠侠为每个模块配备了独立的控制器。这些控制器紧邻NAND芯片，以菊花链形式连接。这样可以减少串扰，消除宽并行总线的复杂性，后者在速度提高时变得越来越难以管理。相反，数据以串行方式传递，每个链接使用PAM4信号传输128Gbps。

PAM4（脉冲幅度调制四级）将每个符号的数据速率提高一倍，但对噪声和位错误更为敏感。为了保持信号完整性，铠侠采用了均衡、纠错和更强的预加重技术——类似于PCIe 6.0本身的要求。这也解释了为何选择PCIe 6.0作为主机接口，因为16条PCIe 6.0通道理论上可以处理约128GB/s的双向数据。铠侠的目标是64GB/s，略低于该极限的一半，留有足够的余地用于纠错和开销，而不会使总线饱和。

正如预期的那样，延迟是主要权衡点。HBM内存的工作时间以数百纳秒计，几乎像是GPU寄存器的扩展。即使使用高级控制器，NAND闪存的访问时间仍以数十微秒计，相差几个数量级。铠侠通过积极预取和控制器级别的缓存来缓解这一问题，因此顺序工作负载受影响较小。虽然NAND无法像DRAM一样快速，但这种差距缩小到足以使流数据集、AI检查点或大规模图分析中带宽比原始延迟更重要的程度。

另一个关键因素是功耗。铠侠声称每个模块的功耗低于40W，与传统Gen5 SSD相比，后者在14GB/s的速度下功耗可达15W。从每GB/s的功耗来看，这个模块的效率大幅提升。这一点非常重要，因为在超大规模机架中，几百个驱动器很容易消耗数千瓦的功率。AI数据中心由于H100集群的使用，其功耗预算已经大幅增加，因此在存储层节省每一瓦都至关重要。

这些模块还带来了新的系统设计选项。由于控制器以菊花链形式连接，增加更多模块不会消耗额外带宽，性能随容量线性扩展。一组完整的16个模块可以达到80TB的闪存和超过1TB/s的吞吐量——这些数字曾仅限于并行文件系统或DRAM暂存区。这使得存储可以像近内存一样直接位于PCIe架构上，与加速器并行，而不是困在后端I/O中。

这并不是铠侠首次涉足高带宽闪存领域。该公司一直在试验长距离PCIe SSD和GPU对等闪存链接，包括与英伟达合作研究XL-Flash驱动器，旨在实现1000万IOPS。结合其在日本宣布的工厂扩建计划——预计到2028年闪存需求将几乎翻三倍——显然，这款原型不仅仅是单一产品。它预示着NAND不仅会更大，还会更快，快到足以靠近计算堆栈。

目前，该模块仍处于原型阶段，存在一些未解问题：如何处理混合随机工作负载、ECC扩展如何影响延迟以及在AI训练条件下实际吞吐量的表现。然而，更重要的是，闪存正突破其作为慢速深层存储的角色，向存储层次结构的更高位置迈进。如果铠侠的愿景得以实现，下一代数据中心的存储模块可能会与GPU争夺带宽优势。

(以上内容均由Ai生成)