您可能错过了 theCUBE 对“掌握 AI:新基础设施规则”活动的报道中的三个见解

发布时间:2025年3月12日    来源:szf
您可能错过了 theCUBE 对“掌握 AI:新基础设施规则”活动的报道中的三个见解

快速阅读: 《硅角度》消息,人工智能正在重塑全球数据中心行业,企业需重新思考基础设施建设。内部构建AI基础设施成为趋势,但面临技能短缺和复杂性挑战。组织应采用模块化架构和智能计算环境,以提高性能和弹性。通过与专家合作,企业可确保AI基础设施的长期成功。

人工智能的崛起正在重塑全球数据中心行业,企业面临着关于如何构建、部署和优化其人工智能基础设施的关键决策。随着人工智能成为竞争优势的核心,企业必须采用新策略以确保不被落下。在未来十年,人工智能驱动的计算预计将占所有数据中心支出的近90%,从根本上重塑IT战略。然而,许多组织正面临技能短缺、GPU集群利用率低以及将人工智能集成到现有系统中的复杂性等挑战。Penguin Solutions的特雷·莱顿与The Cube的戴夫·韦兰特就人工智能基础设施解决方案进行了讨论。“我们正见证一个全新计算时代的崛起,”韦兰特说。“在未来十年,由我们所称的极端并行计算或一些人称之为加速计算驱动下,一个万亿美元以上的数据中心业务正处于转型之中。虽然人工智能是主要推动力,但其影响波及整个技术栈。”

在“掌握人工智能:新基础设施规则”活动中,韦兰特与Penguin Solutions Inc.的AI基础设施提供商总裁皮特·曼卡(图片所示)和软件及产品管理副总裁特雷·莱顿讨论了组织如何成功实现人工智能采用。

1. 构建人工智能基础设施需要根本性的重新思考。企业在实施人工智能时面临的最大障碍之一是传统IT基础设施并不适用于人工智能工作负载的需求。许多公司正在云中试验人工智能,但由于安全和成本问题,他们对将专有数据迁移到云端犹豫不决。因此,根据曼卡的说法,组织正在寻找方法来内部构建人工智能基础设施。

“传统基础设施与人工智能基础设施有很大的不同,因此他们必须重新思考如何进行IT。”他说,“内部构建可能是更优的选择,但这意味着从数据中心建设、电力供应、冷却到系统架构的全面转变。”

企业必须考虑关键的架构决策,例如是否使用液体冷却、直接到芯片冷却或传统的空气冷却。他们还需要决定最佳的芯片供应商组合、存储解决方案和网络技术。由于有许多选项可供选择,组织通常会寻求像Penguin Solutions这样的公司的专家指导,以设计可有效扩展的人工智能环境。“你可以根据用例选择很多技术,”他说,“关键是提前正确设计。你不应该把这些部分简单拼凑在一起。”

与传统的IT设置不同,后者可能涉及管理数十万台服务器,人工智能工作负载——尤其是大型语言模型训练——需要高度复杂的网络解决方案和专门的硬件配置。这包括直接到芯片连接、GPU到GPU通信技术如NVLink以及先进的光学网络以绕过传统CPU瓶颈。通过与人工智能基础设施专家合作,企业可以避免代价高昂的错误,并确保他们的人工智能部署为长期成功而构建。

2. 人工智能基础设施必须设计为峰值性能和弹性。与传统IT环境专注于正常运行时间和高可用性不同,人工智能基础设施必须始终优化为最大性能。企业经常遇到未充分利用的GPU集群问题,导致效率低下并增加成本。为了解决这个问题,根据莱顿的说法,组织必须实施智能计算环境,以优化工作负载并最小化停机时间。

“你谈论的是一个大规模可扩展的并行处理基础设施,它被设计为始终以峰值性能运行——这与过去的企业所建立的不同。”人工智能基础设施面临的最大挑战之一是确保GPU集群高效运行。根据莱顿的说法,GPU的故障率比通用CPU高出33倍,因为它们持续全速运行。组织需要预测性故障分析工具,以便在潜在故障影响运营前主动识别并解决问题。Penguin Solutions开发了软件解决方案,如ICE ClusterWare AIM,以解决这些挑战。该服务通过利用超过20亿小时的GPU运行时间专业知识,使用专利软件防止故障、自动化维护并优化任何规模集群的性能,莱顿补充道。

“我们实际上是在监控GPU本身的温度变化。我们在InfiniBand结构上进行延迟吞吐量测试,任何超出正常参数的变化,我们将开始实施软件自动化尝试修复。如果不能,那么我们将从生产工作负载中移除该设备,以免造成实际生产中断。”

通过整合人工智能驱动的监控和修复功能,企业可以保持高性能并减少停机时间,确保其人工智能基础设施尽可能高效地运行,莱顿补充道。

3. 弥补人工智能技能差距对于构建可持续的人工智能环境至关重要。人工智能采用的最大障碍之一是缺乏内部专业知识。人工智能基础设施需要一种独特的技能组合,结合了传统企业IT知识与高性能计算(HPC)专业知识。许多IT专业人员习惯于管理虚拟化和云环境,但缺乏设计高性能人工智能集群的经验,莱顿指出。

“高性能计算领域需要理解IT的问题,而IT领域需要理解高性能计算的问题。在这种情况下,这两种技能的交汇将成为未来的AI基础设施工程师……一个能够掌握这两个世界的人。”

为了解决这一挑战,组织必须投资培训并寻求专注于人工智能的技术合作伙伴。像Penguin Solutions这样的公司提供人工智能优化的架构模型和模块化基础设施解决方案,帮助企业既能保持运营灵活性又能扩展其人工智能环境,莱顿指出。

未来证明人工智能基础设施是另一个关键考虑因素。鉴于人工智能硬件和软件的快速发展,公司需要模块化架构以适应新技术。为长期可扩展性设计对于可持续增长和效率至关重要。

“现实是,底层硬件的发展速度非常快,”莱顿说,“你需要一个基础架构,它能够在能够适应这些变化的环境中部署,并找到利用这些技术的方法。”

通过采用模块化、适应性强的方法并利用人工智能基础设施专家的知识,企业可以确保其人工智能投资在长期内保持可行性和竞争力,莱顿总结道。

以下是The Cube对皮特·曼卡的完整视频采访:

观看完整的活动视频:

此外,查找The Cube的完整视频播放列表:

观看完整的活动视频:

(* 披露:The Cube是“掌握人工智能:新基础设施规则”活动的付费媒体合作伙伴。Penguin Solutions Inc.作为The Cube活动报道的赞助商,以及其他赞助商均不对The Cube或SiliconANGLE的内容拥有编辑控制权。)

照片来源:SiliconANGLE

约翰·弗里尔,SiliconANGLE联合创始人的一条消息:您的支持对我们非常重要,它帮助我们保持内容免费。只需点击一下即可支持我们的使命,提供深入且相关的内容。加入我们的YouTube社区加入包括超过15,000名#CubeAlumni专家的社区,其中包括Amazon.com CEO安迪·贾西、Dell Technologies创始人兼CEO迈克尔·戴尔、Intel CEO帕特·格尔辛格等众多杰出人物和专家。

“theCUBE是行业的重要伙伴。你们真的是我们活动的一部分,我们真的很感谢你们的到来,我知道人们也非常欣赏你们创造的内容。” – 安迪·贾西

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日