您可能错过了 theCUBE 对“掌握 AI:新基础设施规则”活动的报道中的三个见解

发布时间:2025年3月12日    来源:szf
您可能错过了 theCUBE 对“掌握 AI:新基础设施规则”活动的报道中的三个见解

快速阅读: 《硅角度》消息,人工智能正在重塑全球数据中心行业,企业需重新思考基础设施建设。内部构建AI基础设施成为趋势,但面临技能短缺和复杂性挑战。组织应采用模块化架构和智能计算环境,以提高性能和弹性。通过与专家合作,企业可确保AI基础设施的长期成功。

人工智能的崛起正在重塑全球数据中心行业,企业面临着关于如何构建、部署和优化其人工智能基础设施的关键决策。随着人工智能成为竞争优势的核心,企业必须采用新策略以确保不被落下。在未来十年,人工智能驱动的计算预计将占所有数据中心支出的近90%,从根本上重塑IT战略。然而,许多组织正面临技能短缺、GPU集群利用率低以及将人工智能集成到现有系统中的复杂性等挑战。Penguin Solutions的特雷·莱顿与The Cube的戴夫·韦兰特就人工智能基础设施解决方案进行了讨论。“我们正见证一个全新计算时代的崛起,”韦兰特说。“在未来十年,由我们所称的极端并行计算或一些人称之为加速计算驱动下,一个万亿美元以上的数据中心业务正处于转型之中。虽然人工智能是主要推动力,但其影响波及整个技术栈。”

在“掌握人工智能:新基础设施规则”活动中,韦兰特与Penguin Solutions Inc.的AI基础设施提供商总裁皮特·曼卡(图片所示)和软件及产品管理副总裁特雷·莱顿讨论了组织如何成功实现人工智能采用。

1. 构建人工智能基础设施需要根本性的重新思考。企业在实施人工智能时面临的最大障碍之一是传统IT基础设施并不适用于人工智能工作负载的需求。许多公司正在云中试验人工智能,但由于安全和成本问题,他们对将专有数据迁移到云端犹豫不决。因此,根据曼卡的说法,组织正在寻找方法来内部构建人工智能基础设施。

“传统基础设施与人工智能基础设施有很大的不同,因此他们必须重新思考如何进行IT。”他说,“内部构建可能是更优的选择,但这意味着从数据中心建设、电力供应、冷却到系统架构的全面转变。”

企业必须考虑关键的架构决策,例如是否使用液体冷却、直接到芯片冷却或传统的空气冷却。他们还需要决定最佳的芯片供应商组合、存储解决方案和网络技术。由于有许多选项可供选择,组织通常会寻求像Penguin Solutions这样的公司的专家指导,以设计可有效扩展的人工智能环境。“你可以根据用例选择很多技术,”他说,“关键是提前正确设计。你不应该把这些部分简单拼凑在一起。”

与传统的IT设置不同,后者可能涉及管理数十万台服务器,人工智能工作负载——尤其是大型语言模型训练——需要高度复杂的网络解决方案和专门的硬件配置。这包括直接到芯片连接、GPU到GPU通信技术如NVLink以及先进的光学网络以绕过传统CPU瓶颈。通过与人工智能基础设施专家合作,企业可以避免代价高昂的错误,并确保他们的人工智能部署为长期成功而构建。

2. 人工智能基础设施必须设计为峰值性能和弹性。与传统IT环境专注于正常运行时间和高可用性不同,人工智能基础设施必须始终优化为最大性能。企业经常遇到未充分利用的GPU集群问题,导致效率低下并增加成本。为了解决这个问题,根据莱顿的说法,组织必须实施智能计算环境,以优化工作负载并最小化停机时间。

“你谈论的是一个大规模可扩展的并行处理基础设施,它被设计为始终以峰值性能运行——这与过去的企业所建立的不同。”人工智能基础设施面临的最大挑战之一是确保GPU集群高效运行。根据莱顿的说法,GPU的故障率比通用CPU高出33倍,因为它们持续全速运行。组织需要预测性故障分析工具,以便在潜在故障影响运营前主动识别并解决问题。Penguin Solutions开发了软件解决方案,如ICE ClusterWare AIM,以解决这些挑战。该服务通过利用超过20亿小时的GPU运行时间专业知识,使用专利软件防止故障、自动化维护并优化任何规模集群的性能,莱顿补充道。

“我们实际上是在监控GPU本身的温度变化。我们在InfiniBand结构上进行延迟吞吐量测试,任何超出正常参数的变化,我们将开始实施软件自动化尝试修复。如果不能,那么我们将从生产工作负载中移除该设备,以免造成实际生产中断。”

通过整合人工智能驱动的监控和修复功能,企业可以保持高性能并减少停机时间,确保其人工智能基础设施尽可能高效地运行,莱顿补充道。

3. 弥补人工智能技能差距对于构建可持续的人工智能环境至关重要。人工智能采用的最大障碍之一是缺乏内部专业知识。人工智能基础设施需要一种独特的技能组合,结合了传统企业IT知识与高性能计算(HPC)专业知识。许多IT专业人员习惯于管理虚拟化和云环境,但缺乏设计高性能人工智能集群的经验,莱顿指出。

“高性能计算领域需要理解IT的问题,而IT领域需要理解高性能计算的问题。在这种情况下,这两种技能的交汇将成为未来的AI基础设施工程师……一个能够掌握这两个世界的人。”

为了解决这一挑战,组织必须投资培训并寻求专注于人工智能的技术合作伙伴。像Penguin Solutions这样的公司提供人工智能优化的架构模型和模块化基础设施解决方案,帮助企业既能保持运营灵活性又能扩展其人工智能环境,莱顿指出。

未来证明人工智能基础设施是另一个关键考虑因素。鉴于人工智能硬件和软件的快速发展,公司需要模块化架构以适应新技术。为长期可扩展性设计对于可持续增长和效率至关重要。

“现实是,底层硬件的发展速度非常快,”莱顿说,“你需要一个基础架构,它能够在能够适应这些变化的环境中部署,并找到利用这些技术的方法。”

通过采用模块化、适应性强的方法并利用人工智能基础设施专家的知识,企业可以确保其人工智能投资在长期内保持可行性和竞争力,莱顿总结道。

以下是The Cube对皮特·曼卡的完整视频采访:

观看完整的活动视频:

此外,查找The Cube的完整视频播放列表:

观看完整的活动视频:

(* 披露:The Cube是“掌握人工智能:新基础设施规则”活动的付费媒体合作伙伴。Penguin Solutions Inc.作为The Cube活动报道的赞助商,以及其他赞助商均不对The Cube或SiliconANGLE的内容拥有编辑控制权。)

照片来源:SiliconANGLE

约翰·弗里尔,SiliconANGLE联合创始人的一条消息:您的支持对我们非常重要,它帮助我们保持内容免费。只需点击一下即可支持我们的使命,提供深入且相关的内容。加入我们的YouTube社区加入包括超过15,000名#CubeAlumni专家的社区,其中包括Amazon.com CEO安迪·贾西、Dell Technologies创始人兼CEO迈克尔·戴尔、Intel CEO帕特·格尔辛格等众多杰出人物和专家。

“theCUBE是行业的重要伙伴。你们真的是我们活动的一部分,我们真的很感谢你们的到来,我知道人们也非常欣赏你们创造的内容。” – 安迪·贾西

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日