CoreWeave推出专为AI优化的高速对象存储
快速阅读: CoreWeave推出专为AI工作负载优化的对象存储,解决GPU驱动任务中数据移动瓶颈,提高数据访问速度和效率,支持大规模模型训练,减少成本和操作复杂性。
在部署人工智能工作负载时,随着对数据需求量大的模型的压力增大,存储架构中的一个日益突出的弱点被暴露出来。CoreWeave的AI对象存储直接应对了这一挑战,旨在解决GPU驱动工作负载中数据移动的持续瓶颈问题。与提供带有AI概念的一般云存储不同,CoreWeave提供了一种专为无缝访问、速度和灵活性设计的存储解决方案,其根本目的是使数据像现代AI工作流程所要求的那样具有动态性。
新的存储平台将影响大型组织如何训练、微调和部署AI模型。通过优先考虑吞吐量和全球数据可用性,CoreWeave旨在充分利用宝贵的GPU资源,减少浪费的时间和基础设施开支。对于引领AI创新的企业来说,这种转变不仅提高了技术效率,还促进了分布式团队和云区域之间的合作和扩展新方法。
CoreWeave的推出正值企业面临数据集庞大、出口成本上升以及跨多个环境管理AI管道的操作复杂性之时。无论模型和团队在哪里操作,解除数据阻塞的需求已经从技术好奇心转变为战略必要性。
CoreWeave的AI对象存储是完全托管的,并且从头开始设计,专门用于GPU密集型AI任务。该系统围绕分离计算和存储的分布式架构构建,能够实现大规模的超低延迟数据访问。这个平台的特点在于它集成了本地对象传输加速器(LOTA),这是一种专有技术,可以将每个GPU节点转变为本地缓存端点。当需要数据时,LOTA会将其移近GPU,无论数据位于哪个区域或云端,从而减少访问时间并最小化数据复制。
据报道,该存储系统的吞吐量可达到每GPU高达7GB/s,当扩展到数十万GPU时,它可以支持当今最大的模型训练管道之一。工程师不需要构建或管理自定义缓存解决方案;LOTA的AI专用预取和缓存功能直接嵌入存储层。这使得模型检查点、大数据集甚至媒体资产能够在计算资源之间快速移动,而不会引入操作摩擦或产生额外的传输成本。
从功能角度来看,CoreWeave AI对象存储保持S3兼容性,适用于API和工具,与已建立的框架如Weights & Biases集成,用于AI研究中的实验跟踪和工件管理。安全方面,数据在静止和传输过程中均加密,具备强大的访问策略、SAML和SSO集成,以及通过Prometheus和Grafana仪表板进行实时监控。
实际应用的一个例子是在多地区AI团队合作训练大型语言模型时。团队无需在地理上复制数据集并支付每次数据出口交易的费用,而是使用CoreWeave的存储作为单一的数据源。在他们进行实验和迭代时,模型检查点可以高速读取和写入,保持GPU的繁忙状态并缩短总的训练周期。
在对象存储市场中,存在诸如亚马逊S3、谷歌云存储和微软Azure Blob存储等成熟的巨头,它们大多提供针对通用用途的S3兼容服务。CoreWeave与众不同之处在于它专注于优化AI工作负载。它不是改造现有的基础设施,而是专门为高吞吐量、多云GPU集群的独特需求定制的存储。
这种定制的方法体现在与平台如Weights & Biases的集成上,后者最近被CoreWeave收购,以实现快速的工件存储和检索。许多现代MLOps工作流,包括分布式训练和模型微调,都受益于多个团队能够访问相同的数据,无论他们在何处运行作业,无需在云或区域之间移动大量文件。
然而,挑战仍然存在。由于CoreWeave AI对象存储首先针对AI和高性能GPU环境进行了优化,因此需要强一致性保证或遗留应用程序模式的工作负载可能面临适应障碍。此外,虽然CoreWeave的价格消除了出口和请求费用,但对于持续进行大规模AI操作的组织而言,总成本优势最为显著。小型部署或混合工作负载环境可能看到的成本改善不如头条新闻所声称的那么明显。
CoreWeave AI对象存储重塑了数据与计算之间的关系,专为人工智能驱动的企业设计。其技术架构注重吞吐量、全球可访问性和大规模扩展,直接针对传统云存储中存在的速度慢和效率低的问题。在需要高速度、大容量数据访问且团队分散操作的环境中,这些优势尤为明显。
然而,成功采用该技术还需对集成复杂性、迁移成本及现有工作流程的具体情况进行坦诚评估。对于具有前瞻性的组织而言,CoreWeave的存储解决方案不仅能够加速模型开发,还能促进新的合作模式和创新,这些在过去是难以实现的。随着人工智能竞赛的加剧,决策者需要权衡技术能力、运营风险和成本的可预测性,通过实际试点和具体的成本建模来辅助决策过程。
AI存储的未来充满竞争与活力。CoreWeave的专业化产品明确表明,通用对象存储的时代可能即将结束,取而代之的是为AI快速发展和大规模应用而设计的平台。
(以上内容均由Ai生成)