Oracle推新AI集群，搭载Nvidia与AMD芯片

发布时间：2025年10月15日来源：szf

快速阅读: 甲骨文宣布建新AI集群OCI Zettascale10，采用英伟达与AMD芯片，支持80万GPU，性能达16泽托秒，预计2026下半年推出，强调低能耗与高可靠性。

今日，甲骨文公司宣布计划建造由竞争对手英伟达公司和超威半导体公司的芯片驱动的新人工智能集群。首个集群，名为OCI Zettascale10，将托管在该公司的OCI公共云上，支持客户配置最多配备80万个英伟达图形处理单元的人工智能环境。此外，甲骨文正在构建一个基于AMD即将推出的旗舰级人工智能加速器Instinct MI450的5万个GPU集群。

为了防止过度依赖单一芯片制造商，其他人工智能市场的主要参与者也在使用来自多个供应商的GPU。甲骨文在云计算市场的主要竞争对手均提供英伟达和AMD的混合GPU方案。OpenAI委托数据库制造商提供价值3000亿美元的人工智能基础设施，计划在其现有硅片基础上部署定制的人工智能芯片。

支撑OCI Zettascale10架构的数据中心，目前正在德克萨斯州阿比林为OpenAI建设。该数据中心将支持多吉瓦特的集群，最多可容纳80万个英伟达GPU。据甲骨文估计，OCI Zettascale10的峰值人工智能性能将达到16泽托秒（即16万亿亿次计算/秒）。

甲骨文计划通过Nvidia的Spectrum-X系列以太网网络设备将OCI Zettascale10集群中的GPU连接起来。该产品线主要包括两款设备：BlueField-3 SuperNIC芯片用于连接GPU服务器到数据中心的网络，并从其主处理器卸载某些计算任务；以及名为Spectrum SN5000的以太网交换机系列。甲骨文实施的网络设备技术称为Acceleron RoCE，通常情况下，数据在GPU之间传输需要经过服务器的中央处理器，而Acceleron RoCE可以跳过这一步，提高性能。

目前，甲骨文已经开始接受OCI Zettascale10的订单，预计将于2026年下半年推出。“客户可以使用更少的能耗构建、训练并部署他们最大的人工智能模型，同时实现高可靠性，”甲骨文云基础设施执行副总裁马赫什·提亚加拉詹表示，“此外，客户将有自由度在甲骨文的分布式云环境中操作，享有强大的数据和人工智能主权控制。”

甲骨文还计划上线一个装备了5万个AMD MI450图形卡的人工智能集群。这些GPU将在基于AMD新设计的Helios机架中运行。每个Helios机架可以容纳72个MI450芯片，每个芯片包含高达432GB的HBM4内存。HBM4是一种尚未大规模生产的高速RAM，AMD估计这项技术可以使Helios提供两倍于配备英伟达即将推出的Vera Rubin芯片系统的内存容量和带宽。

Helios机架还包含其他组件，如AMD即将推出的Venice服务器CPU系列和Vulcano，后者是其Pensando数据处理单元系列的未来成员。据AMD称，每个Helios机架在处理FP8数据时，能够提供高达1.4艾秒的性能。该系统采用液体冷却来散热，设计为双宽度，以便技术人员更容易维修故障。AMD将允许硬件合作伙伴扩展Helios的核心功能，以满足他们的需求。

甲骨文计划于2026年第三季度在OCI数据中心安装首批配备MI450的Helios机架，并于2027年开始增加更多系统。

由技术先驱约翰·弗里尔和戴夫·韦兰特创立的SiliconANGLE Media，已经构建了一个涵盖行业领先的数字媒体品牌的动态生态系统，触及1500多万高端技术专业人士。我们新推出的专有theCUBE AI视频云正在观众互动方面取得突破，利用theCUBEai.com神经网络帮助技术公司做出数据驱动的决策，保持在行业对话的前沿。

(以上内容均由Ai生成)