您可能错过了 theCUBE 对“掌握 AI:新基础设施规则”活动的报道中的三个见解
快速阅读: 《硅角度》消息,人工智能正在重塑全球数据中心行业,企业需重新思考基础设施建设。内部构建AI基础设施成为趋势,但面临技能短缺和复杂性挑战。组织应采用模块化架构和智能计算环境,以提高性能和弹性。通过与专家合作,企业可确保AI基础设施的长期成功。
人工智能的崛起正在重塑全球数据中心行业,企业面临着关于如何构建、部署和优化其人工智能基础设施的关键决策。随着人工智能成为竞争优势的核心,企业必须采用新策略以确保不被落下。在未来十年,人工智能驱动的计算预计将占所有数据中心支出的近90%,从根本上重塑IT战略。然而,许多组织正面临技能短缺、GPU集群利用率低以及将人工智能集成到现有系统中的复杂性等挑战。Penguin Solutions的特雷·莱顿与The Cube的戴夫·韦兰特就人工智能基础设施解决方案进行了讨论。“我们正见证一个全新计算时代的崛起,”韦兰特说。“在未来十年,由我们所称的极端并行计算或一些人称之为加速计算驱动下,一个万亿美元以上的数据中心业务正处于转型之中。虽然人工智能是主要推动力,但其影响波及整个技术栈。”
在“掌握人工智能:新基础设施规则”活动中,韦兰特与Penguin Solutions Inc.的AI基础设施提供商总裁皮特·曼卡(图片所示)和软件及产品管理副总裁特雷·莱顿讨论了组织如何成功实现人工智能采用。
1. 构建人工智能基础设施需要根本性的重新思考。企业在实施人工智能时面临的最大障碍之一是传统IT基础设施并不适用于人工智能工作负载的需求。许多公司正在云中试验人工智能,但由于安全和成本问题,他们对将专有数据迁移到云端犹豫不决。因此,根据曼卡的说法,组织正在寻找方法来内部构建人工智能基础设施。
“传统基础设施与人工智能基础设施有很大的不同,因此他们必须重新思考如何进行IT。”他说,“内部构建可能是更优的选择,但这意味着从数据中心建设、电力供应、冷却到系统架构的全面转变。”
企业必须考虑关键的架构决策,例如是否使用液体冷却、直接到芯片冷却或传统的空气冷却。他们还需要决定最佳的芯片供应商组合、存储解决方案和网络技术。由于有许多选项可供选择,组织通常会寻求像Penguin Solutions这样的公司的专家指导,以设计可有效扩展的人工智能环境。“你可以根据用例选择很多技术,”他说,“关键是提前正确设计。你不应该把这些部分简单拼凑在一起。”
与传统的IT设置不同,后者可能涉及管理数十万台服务器,人工智能工作负载——尤其是大型语言模型训练——需要高度复杂的网络解决方案和专门的硬件配置。这包括直接到芯片连接、GPU到GPU通信技术如NVLink以及先进的光学网络以绕过传统CPU瓶颈。通过与人工智能基础设施专家合作,企业可以避免代价高昂的错误,并确保他们的人工智能部署为长期成功而构建。
2. 人工智能基础设施必须设计为峰值性能和弹性。与传统IT环境专注于正常运行时间和高可用性不同,人工智能基础设施必须始终优化为最大性能。企业经常遇到未充分利用的GPU集群问题,导致效率低下并增加成本。为了解决这个问题,根据莱顿的说法,组织必须实施智能计算环境,以优化工作负载并最小化停机时间。
“你谈论的是一个大规模可扩展的并行处理基础设施,它被设计为始终以峰值性能运行——这与过去的企业所建立的不同。”人工智能基础设施面临的最大挑战之一是确保GPU集群高效运行。根据莱顿的说法,GPU的故障率比通用CPU高出33倍,因为它们持续全速运行。组织需要预测性故障分析工具,以便在潜在故障影响运营前主动识别并解决问题。Penguin Solutions开发了软件解决方案,如ICE ClusterWare AIM,以解决这些挑战。该服务通过利用超过20亿小时的GPU运行时间专业知识,使用专利软件防止故障、自动化维护并优化任何规模集群的性能,莱顿补充道。
“我们实际上是在监控GPU本身的温度变化。我们在InfiniBand结构上进行延迟吞吐量测试,任何超出正常参数的变化,我们将开始实施软件自动化尝试修复。如果不能,那么我们将从生产工作负载中移除该设备,以免造成实际生产中断。”
通过整合人工智能驱动的监控和修复功能,企业可以保持高性能并减少停机时间,确保其人工智能基础设施尽可能高效地运行,莱顿补充道。
3. 弥补人工智能技能差距对于构建可持续的人工智能环境至关重要。人工智能采用的最大障碍之一是缺乏内部专业知识。人工智能基础设施需要一种独特的技能组合,结合了传统企业IT知识与高性能计算(HPC)专业知识。许多IT专业人员习惯于管理虚拟化和云环境,但缺乏设计高性能人工智能集群的经验,莱顿指出。
“高性能计算领域需要理解IT的问题,而IT领域需要理解高性能计算的问题。在这种情况下,这两种技能的交汇将成为未来的AI基础设施工程师……一个能够掌握这两个世界的人。”
为了解决这一挑战,组织必须投资培训并寻求专注于人工智能的技术合作伙伴。像Penguin Solutions这样的公司提供人工智能优化的架构模型和模块化基础设施解决方案,帮助企业既能保持运营灵活性又能扩展其人工智能环境,莱顿指出。
未来证明人工智能基础设施是另一个关键考虑因素。鉴于人工智能硬件和软件的快速发展,公司需要模块化架构以适应新技术。为长期可扩展性设计对于可持续增长和效率至关重要。
“现实是,底层硬件的发展速度非常快,”莱顿说,“你需要一个基础架构,它能够在能够适应这些变化的环境中部署,并找到利用这些技术的方法。”
通过采用模块化、适应性强的方法并利用人工智能基础设施专家的知识,企业可以确保其人工智能投资在长期内保持可行性和竞争力,莱顿总结道。
以下是The Cube对皮特·曼卡的完整视频采访:
观看完整的活动视频:
此外,查找The Cube的完整视频播放列表:
观看完整的活动视频:
(* 披露:The Cube是“掌握人工智能:新基础设施规则”活动的付费媒体合作伙伴。Penguin Solutions Inc.作为The Cube活动报道的赞助商,以及其他赞助商均不对The Cube或SiliconANGLE的内容拥有编辑控制权。)
照片来源:SiliconANGLE
约翰·弗里尔,SiliconANGLE联合创始人的一条消息:您的支持对我们非常重要,它帮助我们保持内容免费。只需点击一下即可支持我们的使命,提供深入且相关的内容。加入我们的YouTube社区加入包括超过15,000名#CubeAlumni专家的社区,其中包括Amazon.com CEO安迪·贾西、Dell Technologies创始人兼CEO迈克尔·戴尔、Intel CEO帕特·格尔辛格等众多杰出人物和专家。
“theCUBE是行业的重要伙伴。你们真的是我们活动的一部分,我们真的很感谢你们的到来,我知道人们也非常欣赏你们创造的内容。” – 安迪·贾西
(以上内容均由Ai生成)