AI

英伟达计划2026年用光通信连接AI GPU,下一代数据中心或成标配

发布时间:2025年8月25日    来源:szf
英伟达计划2026年用光通信连接AI GPU,下一代数据中心或成标配

快速阅读: 英伟达宣布2026年推出采用CPO技术的Quantum-X和Spectrum-X光互连平台,提升数据传输速率和能效,减少功耗和延迟,满足大规模AI集群需求。

英伟达在今年早些时候宣布,其下一代机架规模的人工智能平台将采用硅光子互连技术,配备共封装光学元件(CPO),以实现更高的传输速率和更低的功耗。今年在Hot Chips会议上,英伟达发布了关于其下一代Quantum-X和Spectrum-X光互连解决方案的更多信息,并透露这些产品将于2026年上市。

英伟达的技术路线图预计会紧随台积电的COUPE路线图,分三个阶段展开。第一代是用于OSFP连接器的光引擎,提供1.6 Tb/s的数据传输速度,同时降低功耗。第二代采用CoWoS封装技术,集成共封装光学元件,使主板级别的数据传输速率达到6.4 Tb/s。第三代目标是在处理器封装内实现12.8 Tb/s的数据传输速率,并进一步减少功耗和延迟。

为什么选择CPO?

在大规模人工智能集群中,数千个GPU需要协同工作,这给处理器之间的互连带来了挑战。传统的每个机架配备一级(Top-of-Rack)交换机并通过短铜缆相连的方式不再适用。为了创建一个低延迟的网络结构,交换机被移至机架行尾,这大大增加了服务器与首个交换机之间的距离,使得铜缆在800 Gb/s的速度下变得不切实际,因此需要光连接来实现几乎所有的服务器到交换机和交换机之间的链接。

在这样的环境中使用可插拔光模块存在明显的局限性:数据信号离开ASIC后,需经过电路板和连接器才能转换为光信号,这一过程会产生严重的电信号损耗,最高可达约22分贝,这需要复杂的补偿机制,导致每个端口的功耗增加到30W,进而需要额外的冷却措施并成为潜在的故障点。随着人工智能部署规模的扩大,这种问题变得难以忍受,英伟达指出。

CPO通过将光转换引擎直接嵌入交换ASIC旁边,避免了传统可插拔光模块带来的损失。信号几乎立即耦合到光纤中,而不是经过长距离的电信号传输,从而将电信号损耗降至4分贝,每个端口的功耗降至9W。这种布局减少了多个可能失效的组件,极大地简化了光互连的实施。

英伟达表示,通过放弃传统的可插拔收发器并将光引擎直接集成到交换芯片中(借助台积电的COUPE平台),实现了效率、可靠性和可扩展性的显著提升。与可插拔模块相比,CPO的改进非常显著:能效提高3.5倍,信号完整性提升64倍,由于活动设备数量减少,可靠性提高了10倍,部署时间也缩短了约30%,因为服务和组装变得更加简单。

英伟达将在以太网和InfiniBand技术中引入基于CPO的光互连平台。首先,该公司计划在2026年初推出Quantum-X InfiniBand交换机。每台交换机将提供115 Tb/s的吞吐量,支持144个800 Gb/s的端口。系统还集成了一个14.4 TFLOPS的网络处理ASIC,支持英伟达第四代可扩展层次聚合减少协议(SHARP),以降低集体操作的延迟。这些交换机将采用液冷技术。

与此同时,英伟达还计划在2026年下半年通过其Spectrum-X光子平台将CPO引入以太网。该平台将依赖于Spectrum-6 ASIC,驱动两个设备:SN6810提供102.4 Tb/s的带宽,拥有128个800 Gb/s的端口;更大的SN6800则扩展到409.6 Tb/s,同样拥有512个800 Gb/s的端口。这两款设备也将采用液冷技术。

Nvidia 认为,其基于 CPO 的交换机将为生成式人工智能应用提供新的 AI 集群,这些应用正变得越来越大且复杂。由于采用 CPO 技术,这些集群将消除数千个独立组件,从而实现更快的安装、更简便的维护和更低的功耗。因此,使用 Quantum-X InfiniBand 和 Spectrum-X 光学技术的集群在启动时间、首次生成时间及长期可靠性方面表现出色。

Nvidia 强调,共封装光学不是可选增强,而是未来 AI 数据中心的结构性需求。这意味着 Nvidia 将把其光学互连作为与 AMD 等竞争对手相比的关键优势之一。这也是 AMD 收购 Enosemi 的原因。

关于 Nvidia 的硅光子项目,重要的一点是其发展与台积电的 COUPE 平台紧密相关,后者将在未来几年内不断进化,从而进一步提升 Nvidia 的 CPO 平台性能。台积电的第一代 COUPE 通过叠加 65nm 电子集成电路和光子集成电路,并采用 SoIC-X 封装技术制造而成。

台积电的 COUPE 路线图分为三个阶段。第一代是用于 OSFP 连接器的光学引擎,提供 1.6 Tb/s 的数据传输速率,同时降低功耗。第二代将采用 CoWoS 封装技术,实现主板级别的 6.4 Tb/s 传输速率。第三代目标是在处理器封装内实现 12.8 Tb/s 的传输速率,并进一步降低功耗和延迟。

(以上内容均由Ai生成)

你可能还想读

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

快速阅读: Apriority宣布完成230万美元种子轮融资,由Techstars等领投。平台利用AI技术优化债务管理,帮助借款人节省利息,掌握财务控制权,尤其惠及低收入家庭。 旧金山,2025年10月23日 —— 以借款人为核心的服务平台 […]

发布时间:2025年10月23日
Cercli获1200万美元融资,加速AI劳动力平台发展

Cercli获1200万美元融资,加速AI劳动力平台发展

快速阅读: 阿联酋工作管理平台Cercli获1200万美元A轮融资,由Picus Capital领投。资金将用于产品开发、AI创新及市场扩展,目标中东、欧洲和北美。Cercli实现每月22%增长率,客户覆盖50国。 总部位于阿联酋的工作管理 […]

发布时间:2025年10月23日
扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

快速阅读: Meta宣布裁减AI部门约600名工程师,涉及FAIR等多个团队,旨在精简业务提高效率。CEO扎克伯格重申AI仍是公司核心,将继续投资高级机器学习和超级智能项目。 Meta近日宣布从其人工智能(AI)部门裁员约600名工程师,此 […]

发布时间:2025年10月23日
Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

快速阅读: 风险投资公司a16z计划筹集100亿美元,重点投资AI和国防,未提及加密货币。此举令人意外,因a16z曾是加密领域的重要支持者,近期仍积极投资相关项目。 据报道,风险投资公司安德森·霍洛维茨(a16z)正在寻求筹集约100亿美元 […]

发布时间:2025年10月23日
花旗资助香港390万港元,助力贫困青年掌握AI技能

花旗资助香港390万港元,助力贫困青年掌握AI技能

快速阅读: 花旗基金会向香港“改变年轻生命基金会”捐赠50万美元,支持为期两年的“求职挑战”项目,提升弱势青少年的人工智能技能和求职能力,增强其就业竞争力。 花旗基金会向香港“改变年轻生命基金会”拨款50万美元(约390万港元),用于为期两 […]

发布时间:2025年10月23日
AI成新界面,企业转型加速

AI成新界面,企业转型加速

快速阅读: 自动驾驶技术从微小升级到移除方向盘,彻底改变车辆设计和旅程体验,重塑汽车与环境的关系。AI发展类似,通过小步快跑实现重大转变,成为统一的用户界面,改善客户互动体验。 多年来,汽车自主驾驶功能的发展似乎只是一系列微小的升级,比如车 […]

发布时间:2025年10月23日
实博蒂克斯成立顾问委员会,推动AI技术发展

实博蒂克斯成立顾问委员会,推动AI技术发展

快速阅读: Realbotix成立顾问委员会,增强AI技术,调整董事会。成员包括谷歌萨利姆·哈桑及转任的安德鲁·德苏扎,目标推进AI与机器人技术发展。弗雷德·派退休,公司感谢其贡献。调整优化产品,强化全球市场地位。 Realbotix公司宣 […]

发布时间:2025年10月23日
OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

快速阅读: OpenAI宣布在美国扩展Stargate数据中心计划,包括威斯康星州Lighthouse项目,预计2028年完工,将开发近1吉瓦电力,采用可持续能源和环保措施,创造数千就业岗位。 该设施是OpenAI在披露美国五个Starga […]

发布时间:2025年10月23日