AI 基础设施的成本：AI 腾飞的新装备

快速阅读: 据《信息周刊》称，实施人工智能面临挑战，需平衡成本与需求。专家建议根据组织规模和目标选择现场、数据中心或云计算方案。虽然初期投入大，但长远看可降低成本并提升效率。

优化组织以适应人工智能应用具有挑战性——尤其是在确定哪些设备和服务真正必要，并在需求与成本间找到平衡方面颇具难度。在瞬息万变的环境中，公司必须决定在多大程度上依赖人工智能，并迅速做出关键决策。

根据2024年埃克斯佩雷奥（Expereo）的一份报告，69%的企业计划以某种方式采用人工智能。根据2024年微软的一份报告，41%的受访领导者正在寻求协助完善其人工智能基础设施。根据波士顿咨询集团（BCG）去年的一项调查，67%的高管对其组织在人工智能采用方面的进展感到不满。情况千差万别，从积极训练人工智能程序到简单部署它们——或者两者兼而有之。无论使用案例如何，都需要复杂的芯片组合——中央处理器（CPU）、图形处理器（GPU），以及可能的数据处理器（DPU）和张量处理器（TPU）。训练和运行人工智能模型需要大量的数据，这些芯片对于实现这一点至关重要。辨别给定的人工智能应用所需的计算能力对于决定需要多少这些芯片以及在哪里获取它们至关重要。解决方案必须同时具有成本效益和适应性。

相关：人工智能的真实成本：《信息周刊》特别报道

云计算服务易于访问且可扩展，但成本会迅速增加。定价结构往往不透明，即使使用相对有限，预算也可能迅速膨胀。而且，根据技术的应用，可能还需要一些硬件。本地解决方案也可能非常昂贵——并且伴随着维护和升级的成本。在办公室或数据中心设置服务器需要对预期的计算需求有更深入的理解——需要多少硬件以及运行它的成本是多少。尽管如此，它们也可以定制，用户拥有更多的直接控制权。

然后，存储用于训练和操作人工智能模型的数据的技术细节以及以高带宽和低延迟传输这些数据的问题就出现了。隐私也是一个问题，特别是在开发新的人工智能模型时，这些模型通常使用敏感数据。这是一个混乱且高度波动的生态系统，因此在技术投资上做出明智的决策变得更加重要。

在这里，《信息周刊》探讨了建立一个人工智能优化组织的复杂性，获得了来自人工智能监控和远程守护公司克劳德斯特鲁克图尔（Cloudastructure）以及加密货币挖矿公司海德罗哈希（Hydro Hash）创始人瑞克·贝内特（Rick Bentley）、数字解决方案公司UST首席人工智能架构师阿德南·马苏德（Adnan Masood）以及云计算公司卡杜计算（CUDO Compute）首席营销官拉尔斯·尼曼（Lars Nyman）的见解。

### 关于芯片的一切

训练和部署人工智能程序依赖于CPU、GPU，在某些情况下还依赖于TPU。CPU提供基本服务——运行操作系统、交付代码和整理数据。虽然较新的CPU能够进行AI工作负载所需的并行处理，但它们最擅长顺序处理。单纯依赖CPU的生态系统只能运行非常适度的AI工作负载——通常是推理。

GPU当然是人工智能技术的核心。它们允许并行处理多条数据流——人工智能依赖大量数据，系统必须能够不间断地处理这些工作负载。任何具有一定规模的训练和运行AI模型——特别是那些使用任何形式深度学习的模型——都将需要GPU的力量。在执行特定深度学习任务时，GPU的效率可能是CPU的100倍。

无论是购买还是租用，GPU都是一笔不小的开支。由于需求量大，有时也很难获得。

**拉尔斯·尼曼，卡杜计算（CUDO Compute）：**
“它们可以在超高速下处理数据并运行训练模型。中小企业可能会选择中端的英伟达（Nvidia）GPU，如A100，而大型企业可能会深入使用专门的系统，如英伟达DGX SuperPODs。”
**尼曼继续说道：**
“单个高性能GPU服务器的价格可能在4万至40万美元之间，具体取决于规模和规格。”

某些专业任务可能受益于专用集成电路（ASIC）的实施，例如TPU，它可以加速使用神经网络的工作负载。数据存储在哪里？

人工智能依赖大量的数据——文字、图像、录音。其中一部分是结构化的，另一部分则不是。数据可以存在于数据湖中——未加工的原始数据池，必须经过处理才能使用——或者存在于数据仓库中——结构化的数据存储库，可以更容易地被人工智能应用程序访问。数据处理协议可以帮助将前者过滤为后者。

希望利用人工智能优化其运营的组织需要弄清楚如何安全地存储这些数据，同时仍允许机器学习算法访问和利用它。硬盘驱动器或基于闪存的固态硬盘阵列可能足以满足某些项目的需求。

**瑞克·贝内特，克劳德斯特鲁克图尔（Cloudastructure）：**
“老式的旋转硬盘非常便宜，它们能存储大量数据。但它们的速度不如现在的固态硬盘快。这具体取决于你需要做什么。”

依赖大量数据的组织可能需要基于非易失性内存Express（NVMe）的存储阵列。这些系统旨在与CPU通信并将数据传递到人工智能程序中进行分析和部署。这些数据也需要备份。

**拉尔斯·尼曼，卡杜计算（CUDO Compute）：**
“人工智能系统显然依赖数据，但这些数据可能是脆弱的。至少，中小型企业需要三重冗余存储：本地驱动器、云备份和冷存储。像Ceph或S3兼容的服务等对象存储系统每月大约每TB 100美元，随着需求的增长，费用也会迅速上升。”

### 人工智能的网络

高效的网络对于建立有效的AI操作至关重要。

**阿德南·马苏德，UST：**
“高速网络会让计算机误以为它已经加载了整个模型。”

以太网和光纤连接通常被认为是最佳选择，因为它们具有高带宽和低延迟。通过融合以太网协议进行远程直接内存访问（RDMA）被认为比基于标准以太网的网络优越，因为它能平稳处理大数据传输。InfiniBand也可能适用于需要高性能的人工智能应用。

**拉尔斯·尼曼，卡杜计算（CUDO Compute）：**
“低延迟、高带宽的网络设备，如100千兆位每秒（Gbps）交换机、光纤电缆和软件定义网络（SDN），可以让你的数据快速移动——这是必需的。”

人工智能所需的带宽必须很高。即使是相对受限的人工智能模型，也必须以高速传输大量数据。如果由于数据无法及时传输而中断操作，模型将无法向最终用户提供承诺的服务。延迟是一个主要障碍。根据Meta的研究结果，人工智能应用中有30%的时间浪费是由于网络速度慢造成的。

确保没有计算节点闲置长时间可以节省大量资金。例如，未能利用GPU会导致投资和运营成本的损失。

前端网络处理完成任务所需的非人工智能组件以及实际人工智能组件的连接和管理。后端网络处理训练和推理相关的计算——芯片之间的通信。以太网和光纤都是前端网络的可行选择。以太网越来越成为后端网络的首选。

基础设施即服务（IaaS）安排可能减轻试图构建其网络的组织的一些负担。

**阿德南·马苏德，UST：**
“如果你有一个大型数据集，你不想用以太网来运行它。如果你使用的是InfiniBand或RDMA这样的协议，你就必须使用光纤。”

尽管这些解决方案在某些情况下更为优越，但它们价格昂贵。

**马苏德补充道：**
“交换机、收发器、光纤电缆——它们都很贵，而且维护成本也很高。”

虽然在某些情况下，某些现场技术可能是必要的，但这些网络服务可以移至场外，以便更轻松地管理站点、数据中心和云位置之间的复杂数据传输。不过，现场设备之间的通信也必须迅速处理。在某些情况下，私有5G网络可能会有所帮助。

自动化这些过程是关键——这可通过实施网络操作系统（NOS）来实现，该系统可以处理各种输入和输出并在操作增长时进行扩展。鉴于许多组织将利用云、数据中心和现场资源的混合模式，互操作性是关键。DPUs可以通过处理数据包进一步简化网络操作，从CPU中分担一些工作负载，使其专注于更复杂的计算。

### 我的计算应该放在哪里？

人工智能的实施很棘手：似乎一切都必须随时随地发生。因此，开发一种平衡现场技术、数据中心资源和云计算技术的方法以满足特定应用的独特需求是一项挑战。

**阿德南·马苏德，UST：**
“我看到30%的人选择了本地解决方案，而70%的人选择了云计算。”

一些组织可能能够利用现有技术，借助云计算解决方案来保持运行。实施聊天机器人并不一定意味着投入资金购买高端硬件和昂贵的数据中心存储。然而，其他人可能会发现自己需要更复杂的工作站、内部和外部存储和处理能力，这些由定制网络支持。

训练和推断更复杂的模型需要专门的技术，这些技术必须根据任务进行微调——在项目进展过程中平衡紧迫成本、可扩展性和隐私。

#### 现场解决方案

所有组织都需要一定程度的现场硬件。在基于云的应用程序中实施小规模的人工智能很可能只需要少量升级，甚至不需要。

**瑞克·贝内特，克劳德斯特鲁克图尔（Cloudastructure）：**
“人们需要在云上运行任何东西的电脑只是浏览器。它只是一个愚蠢的终端，所以你办公室里其实不需要什么。”

较大的项目可能需要更专业的设置。然而，差距正在迅速缩小。根据加特纳（Gartner）的数据，到2025年，包含神经处理单元（NPU）的AI增强型PC将占PC购买量的43%。Canalys预计到2027年这一比例将上升到60%。今年Windows 10的支持结束可能会加速这一转变。这表明，随着组织在未来几年更新其基本的办公室硬件，嵌入一定程度的AI功能几乎是不可避免的。

一些硬件公司也在更积极地推出专门设计的AI功能设备。因此，一些用于支持人工智能的计算能力将默认转移到边缘——这可能会在某种程度上减少对云计算和数据中心的依赖，特别是对于那些谨慎开始使用人工智能的组织。

硬件的就近部署可能会提高速度。考虑更先进设备的组织必须考虑从其设备中获得的计算能力与其可以从云计算或数据中心服务中获得的相比有多少——以及未来升级的容易程度。

例如，值得注意的是，许多笔记本电脑由于CPU和GPU焊接到主板上而难以升级。

**阿德南·马苏德，UST：**
“一台配备高端机器的良好工作站的成本通常在5000至15000美元之间，具体取决于你的配置。”

**瑞克·贝内特，克劳德斯特鲁克图尔（Cloudastructure）：**
“作为升级的一个好选择是一台游戏PC。它是一块Intel i9。CPU几乎不重要。它有一块RTX 4090显卡。”

全心投入的组织将从这种类型硬件日益复杂化中受益。但他们也可能出于实用性需要在现场设置服务器。在内部设置服务器可以更容易地进行定制、维护和扩展。带宽需求和延迟可能会降低。这也是一个隐私保障——处理大量专有数据并开发自己的算法来利用这些数据的组织需要保障其存储和传输的安全性。

初期安装成本，加上维护和人员配置，构成了一项挑战。

**阿德南·马苏德，UST：**
“获取硬件更加困难，除非你是运营一个高度复杂的机构，有大量数据隐私限制和其他顾虑，否则你可能还是想采用云计算的方法。”

**拉尔斯·尼曼，卡杜计算（CUDO Compute）：**
“对于从零开始的小型企业来说，大约需要10万至20万美元的初始投资来建立具备初步AI能力的环境：少量GPU服务器、一个可靠的网络骨干和基本冗余。”

**尼曼继续说道：**
“如果你的目标是大规模训练或实时AI推理，那就需要增加更多投入。”

**尼曼估算道：**
“建立内部数据中心是一项艰巨任务。我们估计中等规模的操作需要花费2000万到5000万美元。当然还有持续的冷却、电力和维护成本。一个1兆瓦的数据中心——足够支持大约10个高端GPU机架——仅仅为了维持运转每年就需要花费约100万美元。”

但对那些对其产品盈利能力有信心的组织来说，这可能是一项值得的投资。在某些情况下，它实际上可能比使用云服务更便宜。此外，随着需求的增长，云服务可能会变得越来越紧张，从而可靠性降低。

#### 外部解决方案

数据中心托管服务可能是适合希望对设备有一定控制权但又不想自行维护的组织的解决方案。他们可以像本地部署一样定制自己的服务器——安装他们运行程序所需的精确数量的GPU和其他组件。

**阿德南·马苏德，UST：**
“中小企业可能会投资于数据中心中的共享空间——他们会拥有100个GPU，用于处理训练或基于开发的工作负载。这大约需要10万至20万美元的初始投资。”

**瑞克·贝内特，克劳德斯特鲁克图尔（Cloudastructure）：**
“人们一直在尝试这种方式。”

然后他们可以支付数据中心来维护这些服务器——这当然会导致额外的成本。

**贝内特说：**
“处理的数据量越大，工具越复杂，这会变得非常昂贵。支持计划每月可能高达5万美元，用来让你购买的存储阵列保持良好运行。”

尽管如此，数据中心免去了对本地条件进行改造的必要——合适的连接、冷却设施和电力需求。而且至少一些维护和成本是标准化且可预测的。安全协议也已就位，减少了单独的安全成本。

#### 云解决方案

那些偏好最少硬件基础设施——甚至完全没有硬件基础设施的组织可以选择像亚马逊、谷歌和微软这样的云计算提供商。这些服务提供了灵活且可扩展的解决方案，而无需设置服务器和投资专用工作站的复杂性。

**阿德南·马苏德，UST：**
“主要的云服务提供者采用了一种共享责任模式——他们为你提供GPU实例，提供设置。他们为你提供一切，这更容易。”

这对刚开始试验AI集成或仍在决定如何扩展现有AI应用而不增加硬件支出的组织来说可能是一个不错的选择。有许多高级资源可供选择，允许公司根据服务成本和工作本身的成本决定哪些对他们最有用。此外，它们通常提供直观的界面，让初学者可以玩转技术并边做边学。

**马苏德说：**
“如果公司使用公共云服务提供商，他们有两种选择。他们可以使用管理型AI服务，或者使用公司提供的GPU实例。”

**马苏德继续说道：**
“当他们使用公司提供的GPU实例时，分为两类：现货实例，意味着你可以按需立即购买；以及租用。如果长期租用，当然成本会更低。”

但云并不总是最具成本效益的选择。

**瑞克·贝内特，克劳德斯特鲁克图尔（Cloudastructure）：**
“这些账单可能会非常庞大。他们开始为存储在那里的数据收费。有些公司专门帮助你理解账单以便减少费用。”

**贝内特补充道：**
“很多时候他们让你自行计算。我认为这是刻意模糊的。你仍然需要至少一名专职DevOps人员来确保这些事情的良好运行。”

在当前环境下，组织被迫拼凑出最适合其需求的解决方案。没有适用于所有人的魔法公式——向专业人士咨询并制定定制方案是值得的。

**拉尔斯·尼曼，卡杜计算（CUDO Compute）：**
“AI肯定不是‘即插即用’式的解决方案——目前还不是，更像是建造一艘宇宙飞船，每个部分都很关键，整体大于各部分之和。成本可能令人望而却步，但潜在的ROI（流程自动化、快速洞察和市场颠覆）可以证明投资的合理性。”

尽管如此，阿德南·马苏德依然充满信心。

**马苏德说：**
“人们曾经认为AI是一项资本密集型业务。我认为这种观点站不住脚。模型正在成熟，事情正变得越来越易于获取。”

(以上内容均由Ai生成)

AI 基础设施的成本：AI 腾飞的新装备

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

谷歌Gemini 3 Pro发布

独具创新，直击痛点：深度解析华为十大最新方案

Palantir估值承压仍领跑AI赛道

Palantir与Snowflakes深化AI合作

Palantir与迪拜控股共建AI公司

Palantir携手Lumen共建企业AI平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台