AMD推AI工厂方案,加速数字转型
快速阅读: AMD推出“AI工厂”概念,构建全栈计算平台支持AI基础设施建设,强调硬件与开源软件ROCm结合,推动数据中心架构革新及AI创新。
人工智能持续加速各行业的数字化转型,重塑组织构建和扩展现代基础设施的方式。高级微设备公司(Advanced Micro Devices Inc., AMD)正将其技术定位为这一转变的核心角色。
这一演变的关键要素是“AI工厂”概念——旨在处理和扩展人工智能工作负载的数据中心。据AMD人工智能软件副总裁阿努什·埃兰戈万(Anush Elangovan)介绍,AMD的战略重点是构建一个连接硬件和软件的全栈计算平台,以支持下一阶段的人工智能基础设施建设。“要实现这一点,关键在于如何获得支持这一AI基础设施所需的计算能力。”他说,“在计算领域,AMD一直提供优秀的多代硬件产品,现在我们专注于软件层,以便在硬件层之上构建一个普及的软件层,从而能够建立这些AI工厂。”
埃兰戈万在接受theCUBE采访时表示,AMD正在重新定义数据中心架构,构建大规模、软件定义的超级计算机,以推动下一轮AI创新。这次采访是在theCUBE + NYSE Wired: AI Factories – Data Centers of the Future活动系列期间进行的,由theCUBE直播室独家播出。
驱动数字转型的软件定义AI
AMD的ROCm开源软件堆栈处于其AI工厂战略的中心位置,创建了一个标准化层,覆盖EPYC处理器、Instinct图形处理单元和Pensando网络接口卡。埃兰戈万表示,目标是构建一个“普及的软件层”,让开发者和企业能够在任何规模上利用计算能力——从超大规模数据中心到企业数据中心再到边缘设备。
“首先是如何打造开放生态系统,如何参与开源生态。”他说道,“我们从零开始构建一个任何人都可以贡献的平台,因此我们的所有ROCm软件都是开源的。我们也有一个开放的生态系统,不仅仅是软件层面;我们希望其他公司和参与者能加入我们的生态系统,共同推进创新。”
AMD最新的里程碑之一是Helios,这是一款在开放计算项目峰会上推出的机架级超级计算机。每个Helios机架配备72个MI450 GPU,提供1.4 exaFLOPs的FP8性能,支持31TB的HBM4内存和高达19Tbps的带宽,埃兰戈万说。“它足够紧凑,适合数据中心部署,可以将多个这样的机架组合起来达到吉瓦级规模。”他说,“我们现在谈论的是吉瓦级部署;其中一个机架实际上就是一个超级计算机。我们还希望构建这一硬件层,并在其上构建一个非常强大的软件层,以便在AMD硬件和软件的基础上建立AI工厂、行业和软件创新。”
AMD在整合硬件和软件方面强调可靠性、安全性和性能“内置于平台,而不是事后附加”。该公司采用的开源模式强化了这一策略,邀请开发者和合作伙伴扩展ROCm软件生态系统,促进AMD在数字转型中的作用。“我们有AMD EPYC处理器、AMD Instinct GPU、AMD Pensando网卡,最重要的是,我们有AMD软件,即ROCm软件,将所有这些组件连接在一起,构建超级计算机。”埃兰戈万说。
由科技远见者约翰·弗里尔和戴夫·韦兰特创立,SiliconANGLE Media 已构建了一个涵盖行业领先数字媒体品牌的动态生态系统,触及超过1500万精英技术专业人士。我们新推出的专有产品 theCUBE AI Video Cloud 正在观众互动领域取得突破,利用 theCUBEai.com 神经网络帮助技术公司做出数据驱动的决策,保持在行业对话的前沿。
(以上内容均由Ai生成)