AMD推AI工厂方案，加速数字转型

发布时间：2025年11月1日来源：szf

快速阅读: AMD推出“AI工厂”概念，构建全栈计算平台支持AI基础设施建设，强调硬件与开源软件ROCm结合，推动数据中心架构革新及AI创新。

人工智能持续加速各行业的数字化转型，重塑组织构建和扩展现代基础设施的方式。高级微设备公司（Advanced Micro Devices Inc., AMD）正将其技术定位为这一转变的核心角色。

这一演变的关键要素是“AI工厂”概念——旨在处理和扩展人工智能工作负载的数据中心。据AMD人工智能软件副总裁阿努什·埃兰戈万（Anush Elangovan）介绍，AMD的战略重点是构建一个连接硬件和软件的全栈计算平台，以支持下一阶段的人工智能基础设施建设。“要实现这一点，关键在于如何获得支持这一AI基础设施所需的计算能力。”他说，“在计算领域，AMD一直提供优秀的多代硬件产品，现在我们专注于软件层，以便在硬件层之上构建一个普及的软件层，从而能够建立这些AI工厂。”

埃兰戈万在接受theCUBE采访时表示，AMD正在重新定义数据中心架构，构建大规模、软件定义的超级计算机，以推动下一轮AI创新。这次采访是在theCUBE + NYSE Wired: AI Factories – Data Centers of the Future活动系列期间进行的，由theCUBE直播室独家播出。

驱动数字转型的软件定义AI

AMD的ROCm开源软件堆栈处于其AI工厂战略的中心位置，创建了一个标准化层，覆盖EPYC处理器、Instinct图形处理单元和Pensando网络接口卡。埃兰戈万表示，目标是构建一个“普及的软件层”，让开发者和企业能够在任何规模上利用计算能力——从超大规模数据中心到企业数据中心再到边缘设备。

“首先是如何打造开放生态系统，如何参与开源生态。”他说道，“我们从零开始构建一个任何人都可以贡献的平台，因此我们的所有ROCm软件都是开源的。我们也有一个开放的生态系统，不仅仅是软件层面；我们希望其他公司和参与者能加入我们的生态系统，共同推进创新。”

AMD最新的里程碑之一是Helios，这是一款在开放计算项目峰会上推出的机架级超级计算机。每个Helios机架配备72个MI450 GPU，提供1.4 exaFLOPs的FP8性能，支持31TB的HBM4内存和高达19Tbps的带宽，埃兰戈万说。“它足够紧凑，适合数据中心部署，可以将多个这样的机架组合起来达到吉瓦级规模。”他说，“我们现在谈论的是吉瓦级部署；其中一个机架实际上就是一个超级计算机。我们还希望构建这一硬件层，并在其上构建一个非常强大的软件层，以便在AMD硬件和软件的基础上建立AI工厂、行业和软件创新。”

AMD在整合硬件和软件方面强调可靠性、安全性和性能“内置于平台，而不是事后附加”。该公司采用的开源模式强化了这一策略，邀请开发者和合作伙伴扩展ROCm软件生态系统，促进AMD在数字转型中的作用。“我们有AMD EPYC处理器、AMD Instinct GPU、AMD Pensando网卡，最重要的是，我们有AMD软件，即ROCm软件，将所有这些组件连接在一起，构建超级计算机。”埃兰戈万说。

由科技远见者约翰·弗里尔和戴夫·韦兰特创立，SiliconANGLE Media 已构建了一个涵盖行业领先数字媒体品牌的动态生态系统，触及超过1500万精英技术专业人士。我们新推出的专有产品 theCUBE AI Video Cloud 正在观众互动领域取得突破，利用 theCUBEai.com 神经网络帮助技术公司做出数据驱动的决策，保持在行业对话的前沿。

(以上内容均由Ai生成)