构建 AI 时,数据智能是第一位的

发布时间:2025年2月21日    来源:szf
构建 AI 时,数据智能是第一位的

快速阅读: 据《The Register》称,随着人工智能基础设施投资激增,数据管理和存储面临巨大挑战。传统存储产品难以应对AI模型增长和实时推理需求。DDN的Sven Oehme指出,数据的智能管理与安全处理至关重要。DDN的Infinite 2.0和EXAScaler平台提供了统一的数据视图和高性能存储,有助于优化数据管道和操作。这表明,为了充分发挥AI潜力,数据基础设施需优先改进。

赞助赞助提到人工智能时,似乎没有什么比过度投资更有效果了。根据国际数据公司(IDC)的数据,2024年上半年,人工智能基础设施投资达到了318亿美元。研究公司预计,到2028年,全年支出将超过1000亿美元,因为人工智能通过在企业中更广泛地使用独立应用程序而变得普遍。一旦将AI赋能的应用程序及相关IT和业务服务考虑在内,全球总支出预计将在2028年达到6320亿美元。然而,尽管投资激增,但要充分实现人工智能在赋能工程师、改造和优化运营以及提高投资回报率方面的潜力,完全是另一回事。对于希望真正实现这些目标的企业来说,贯穿整个AI管道的数据管理可能证明是至关重要的。

问题在于,无论是本地还是云端的传统存储和数据管理产品都已经面临巨大的AI需求压力。容量是一个问题。人工智能模型及其训练所需的数据一直在增加。例如,2018年发布的谷歌BERT有1亿个参数,而据最新统计,ChatGPT-4的参数量已超过1万亿。在管道的另一端,推理——通常以实时速度进行——使得延迟和吞吐量同样重要。还有许多其他挑战。人工智能需要多种类型的数据和存储,包括结构化、半结构化和非结构化数据。这反过来又要求底层存储基础设施的全面范围——包括块存储、文件系统和对象存储。这些数据存储不太可能都在一个地方。除了捕获所有必要信息所涉及的复杂性外,数据源的广度和分布也可能造成重大管理问题。组织及其AI团队如何确保他们对其整个数据资产和整个AI管道都有清晰的可见性?他们如何确保数据被安全处理?

此外,还需要多种工具和相关的技能集使这一切变得更加复杂。当传统方法落后时引入更新且日益专业化的AI模型并不能解决这些基本问题。今年早些时候,中国AI引擎深寻(DeepSeek)进入市场时,超大规模数据中心对AI基础设施的巨大投资受到了质疑。即使构建不需要相同计算能力的大型语言模型也无法解决根本的数据问题。相反,这可能会使其变得更加具有挑战性。使用部分基础设施训练的模型可能会降低企业和其他组织利用AI的门槛,从而可能使其在其自己的基础设施或数据中心内运行AI变得更加可行。

数据直接网络(DataDirect Networks, DDN)的首席技术官斯文·欧厄姆(Sven Oehme)解释说:“如果计算部分变得更便宜,意味着更多的人参与进来,更多的模型会被训练。随着更多的人和更多的模型,准备和部署数据以支持这种激增的挑战变得更加关键。”

这不仅对传统的本地系统构成挑战。数据科学家依赖了十多年的基于云的平台往往也无法满足当今AI需求。同样,不仅仅是原始性能或容量的问题。而是它们管理和安全地智能处理数据的能力。欧厄姆举了一个元数据的例子,如果管理得当,“你可以通过首先缩小实际有趣的数据来减少需要查看的数据量。”例如,自动驾驶或联网车辆会不断抓取图片,比如停车标志。而在发生事故并需要更新或验证基础模型的情况下,分析相关元数据——时间、速度、方向——都变得至关重要。“当他们将这张图片上传到数据中心时……他们希望将所有这些元数据与该对象关联起来,”他说。

这不是理论上的例子。DDN与多个汽车供应商合作创建自动驾驶功能。显然,AI的成功不仅取决于组织可访问的数据量。系统内部存储的数据的“丰富性”,以及“整合所有这些管道或工作流的能力”都很重要。然而,许多组织目前必须同时管理多个数据库、事件系统和通知。这既昂贵又复杂,耗时,并且不可避免地会导致延迟问题。即使是云巨头亚马逊(AWS)也不得不开发一个单独的产品——S3元数据——来解决元数据问题。

数据也需要智能。DDN表示,需要的是一个不仅能提供所需的硬件性能,还能智能、安全地大规模管理数据的平台。它还必须易于访问,无论是通过云还是本地,这意味着它必须提供多租户支持。这正是DDN的数据智能平台发挥作用的地方。该平台由两个元素组成。DDN的无限(Infini)2.0是一个软件定义的存储平台,为用户提供组织内部不同数据集合的统一视图。EXAScaler是其高度可扩展的文件系统,专门针对高性能、大数据和AI工作负载进行了优化。正如欧厄姆解释的那样,无限是一个“能够讲多种存储协议的数据平台,包括那些用于结构化数据的协议”。这是一个关键的区别,他说,“因为无限允许你存储数据,不仅仅是普通的数据文件和对象。它允许我以同一视图存储大量的元数据与非结构化数据。”他说,在无限中,数据和元数据存储在一个大规模可扩展的键值存储中:“这是两种不同方式下的完全相同的数据和元数据。因此我们没有采用过去人们使用的分层方法。”

这可以导致更高效的数据管道和操作,一方面消除了组织内部涌现的各种孤岛,另一方面也减少了数据科学家和其他专家学习和维护多种数据分析和管理工具的需求。由于它们从一开始就设计为多租户,EXAScaler和无限2.0都能够从企业应用扩展到云服务提供商,再到超大规模数据中心。结果显而易见:根据DDN的比较,系统带宽可达数TB/秒,延迟低于毫秒,比AWS S3的性能提高了100倍。DDN表示,其平台在模型训练和推理的访问时间方面显示出了25倍的速度提升。

至于本地解决方案,无限2支持高密度存储,单机架可容纳100PB,并能提供高达75%的电力、冷却和数据中心占地面积减少,同时保持99.999%的正常运行时间。这对于电力和场地作为AI开发和部署限制因素的情况尤为重要,就像技能和数据的获取一样。DDN与芯片制造商英伟达紧密合作。它与GPU巨头的硬件架构紧密对接,可支持单次部署超过10万台GPU,同时也与其软件堆栈紧密集成,从而实现对推理的微服务和英伟达NeMo框架及CUDA的紧密集成。英伟达本身也是DDN的客户。

AI技术正在飞速发展,模型开发者之间也在激烈争夺用户的关注。然而,最终决定组织能否实现AI承诺的将是数据及其管理能力。欧厄姆说:“如果你有一位非常优秀的、充满好奇心的工程师,他们会因AI而变得更出色。”但这取决于数据基础设施首先得到改善。由DDN赞助。

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日