亚马逊Trainium3向英伟达架构靠拢

发布时间：2025年12月8日来源：szf

快速阅读: 据最新消息，亚马逊发布Trainium3 UltraServer机架系统，采用NeuronSwitch互连技术构建交换式架构，与英伟达、AMD方案趋同；谷歌则坚持环面拓扑，AI基础设施技术路线呈现分化。

日前，亚马逊在年度技术大会Re:Invent上正式发布Trainium3 UltraServer机架系统，其外观与英伟达GB200 NVL72及AMD MI400驱动的Helios机架高度相似。分析指出，该设计并非偶然，而是超大规模云服务商推动硬件标准化、模块化的体现。

据悉，Trainium3计算刀片采用一颗Graviton CPU搭配四颗Trainium3加速器及两颗Nitro数据处理单元，取代此前使用的英特尔x86处理器。该配置与英伟达和AMD的同类产品结构趋同：英伟达GB300采用双Grace CPU，AMD则搭配单颗Venice CPU及智能网卡。三者均通过高速互连技术将数十至上百颗芯片整合为单一逻辑加速单元。

其中，亚马逊新推出的NeuronSwitch互连技术用于连接144颗加速器，构成大规模训练集群。尽管具体拓扑尚未披露，但其整体架构与英伟达基于NVLink/NVSwitch、AMD基于UALink协议的方案思路一致。值得注意的是，亚马逊已宣布下一代Trainium4将同时支持UALink与NVLink Fusion协议，进一步向开放生态靠拢。

业内专家表示，此类“交换式扩展架构”正逐步取代传统的2D/3D环面网络，尤其适用于大模型推理中对低延迟、高带宽内存聚合的需求。此举也呼应了由亚马逊、Meta等企业主导的开放计算项目（OCP）目标——通过共享机架设计降低数据中心复杂度，提升运维效率。

近日，全球主要云计算服务商在人工智能算力基础设施架构上呈现技术路线分化。据业内消息，亚马逊AWS已在其AI训练与推理集群中引入基于NeuronSwitch的交换式计算架构。该方案在高批量任务处理中优势显著，可在维持低延迟的同时提升并发能力。相关技术负责人指出，小批量场景下或无需此类交换结构，但随着模型规模扩大，交换架构对性能优化的作用日益突出。

相比之下，谷歌在其第七代TPU集群“Ironwood”中继续采用二维与三维环面（torus）拓扑结构，单个计算域可扩展至9216颗TPU。这一设计得以实现的关键在于其大规模应用光互连技术。尽管光器件功耗较高，但谷歌通过省去传统数据包交换设备，在整体能效上取得平衡。此外，该公司还部署光学电路交换（OCS）系统，其原理类似自动光配线架，可根据任务需求动态划分TPU资源池。

值得注意的是，光学电路交换还能有效应对硬件故障问题。一旦某颗TPU失效，系统可迅速将其隔离并替换，操作便捷高效。目前，随着亚马逊转向交换式架构，谷歌已成为主流云厂商中唯一坚持使用环面拓扑构建AI训练与推理集群的企业。业内分析认为，不同技术路径的选择反映了各公司在性能、成本与运维复杂度之间的权衡，未来AI基础设施架构或将持续多元化发展。

(以上内容均由Ai生成)