英伟达计划2026年用光通信连接AI GPU，下一代数据中心或成标配

快速阅读: 英伟达宣布2026年推出采用CPO技术的Quantum-X和Spectrum-X光互连平台，提升数据传输速率和能效，减少功耗和延迟，满足大规模AI集群需求。

英伟达在今年早些时候宣布，其下一代机架规模的人工智能平台将采用硅光子互连技术，配备共封装光学元件（CPO），以实现更高的传输速率和更低的功耗。今年在Hot Chips会议上，英伟达发布了关于其下一代Quantum-X和Spectrum-X光互连解决方案的更多信息，并透露这些产品将于2026年上市。

英伟达的技术路线图预计会紧随台积电的COUPE路线图，分三个阶段展开。第一代是用于OSFP连接器的光引擎，提供1.6 Tb/s的数据传输速度，同时降低功耗。第二代采用CoWoS封装技术，集成共封装光学元件，使主板级别的数据传输速率达到6.4 Tb/s。第三代目标是在处理器封装内实现12.8 Tb/s的数据传输速率，并进一步减少功耗和延迟。

为什么选择CPO？

在大规模人工智能集群中，数千个GPU需要协同工作，这给处理器之间的互连带来了挑战。传统的每个机架配备一级（Top-of-Rack）交换机并通过短铜缆相连的方式不再适用。为了创建一个低延迟的网络结构，交换机被移至机架行尾，这大大增加了服务器与首个交换机之间的距离，使得铜缆在800 Gb/s的速度下变得不切实际，因此需要光连接来实现几乎所有的服务器到交换机和交换机之间的链接。

在这样的环境中使用可插拔光模块存在明显的局限性：数据信号离开ASIC后，需经过电路板和连接器才能转换为光信号，这一过程会产生严重的电信号损耗，最高可达约22分贝，这需要复杂的补偿机制，导致每个端口的功耗增加到30W，进而需要额外的冷却措施并成为潜在的故障点。随着人工智能部署规模的扩大，这种问题变得难以忍受，英伟达指出。

CPO通过将光转换引擎直接嵌入交换ASIC旁边，避免了传统可插拔光模块带来的损失。信号几乎立即耦合到光纤中，而不是经过长距离的电信号传输，从而将电信号损耗降至4分贝，每个端口的功耗降至9W。这种布局减少了多个可能失效的组件，极大地简化了光互连的实施。

英伟达表示，通过放弃传统的可插拔收发器并将光引擎直接集成到交换芯片中（借助台积电的COUPE平台），实现了效率、可靠性和可扩展性的显著提升。与可插拔模块相比，CPO的改进非常显著：能效提高3.5倍，信号完整性提升64倍，由于活动设备数量减少，可靠性提高了10倍，部署时间也缩短了约30%，因为服务和组装变得更加简单。

英伟达将在以太网和InfiniBand技术中引入基于CPO的光互连平台。首先，该公司计划在2026年初推出Quantum-X InfiniBand交换机。每台交换机将提供115 Tb/s的吞吐量，支持144个800 Gb/s的端口。系统还集成了一个14.4 TFLOPS的网络处理ASIC，支持英伟达第四代可扩展层次聚合减少协议（SHARP），以降低集体操作的延迟。这些交换机将采用液冷技术。

与此同时，英伟达还计划在2026年下半年通过其Spectrum-X光子平台将CPO引入以太网。该平台将依赖于Spectrum-6 ASIC，驱动两个设备：SN6810提供102.4 Tb/s的带宽，拥有128个800 Gb/s的端口；更大的SN6800则扩展到409.6 Tb/s，同样拥有512个800 Gb/s的端口。这两款设备也将采用液冷技术。

Nvidia 认为，其基于 CPO 的交换机将为生成式人工智能应用提供新的 AI 集群，这些应用正变得越来越大且复杂。由于采用 CPO 技术，这些集群将消除数千个独立组件，从而实现更快的安装、更简便的维护和更低的功耗。因此，使用 Quantum-X InfiniBand 和 Spectrum-X 光学技术的集群在启动时间、首次生成时间及长期可靠性方面表现出色。

Nvidia 强调，共封装光学不是可选增强，而是未来 AI 数据中心的结构性需求。这意味着 Nvidia 将把其光学互连作为与 AMD 等竞争对手相比的关键优势之一。这也是 AMD 收购 Enosemi 的原因。

关于 Nvidia 的硅光子项目，重要的一点是其发展与台积电的 COUPE 平台紧密相关，后者将在未来几年内不断进化，从而进一步提升 Nvidia 的 CPO 平台性能。台积电的第一代 COUPE 通过叠加 65nm 电子集成电路和光子集成电路，并采用 SoIC-X 封装技术制造而成。

台积电的 COUPE 路线图分为三个阶段。第一代是用于 OSFP 连接器的光学引擎，提供 1.6 Tb/s 的数据传输速率，同时降低功耗。第二代将采用 CoWoS 封装技术，实现主板级别的 6.4 Tb/s 传输速率。第三代目标是在处理器封装内实现 12.8 Tb/s 的传输速率，并进一步降低功耗和延迟。

(以上内容均由Ai生成)