AI 存储:用于训练和推理的 NAS 与 SAN 与对象
快速阅读: 据《计算机周刊》称,系统架构师面临选择NAS或SAN存储AI数据的挑战。NAS成本低且易扩展,适合非结构化数据;SAN适用于高吞吐量需求。数据处理分训练和推理阶段,需权衡迁移成本与性能提升。 Bruce Kornfeld指出,选择取决于AI工具访问数据的方式。自动驾驶等应用可能采用SAN或本地存储。
NAS 和 SAN 对于支持人工智能项目的系统架构师而言,提出了一项难题:数据的最佳存储位置究竟在哪里?最简单的方式或许是维持数据源不变,但这并非总是可行的。可能的原因包括数据需进一步处理、人工智能应用需与生产系统隔离,或者现有的存储系统无法满足人工智能应用所需的吞吐量。
此外,向量化通常会导致数据量显著增长,通常是十倍的增长,这为生产存储带来了更多需求。这就要求存储既灵活又可扩展,并且在不同阶段,人工智能项目的数据处理需求也有所不同。训练需要大量原始数据,而推理(即在生产环境中运行模型)可能不需要那么多数据,但需要更高的吞吐量和最低的延迟。
企业通常会将大部分非结构化数据存储在 NAS 存储上,这种存储通过文件访问实现。NAS 具有相对低成本、易于管理和扩展的优点,比直连存储(DAS)或块访问 SAN 存储等替代方案更具优势。在这里,从存储阵列获得最佳性能(以 IOPS 和吞吐量衡量)可以抵消 NAS 的复杂性。企业生产系统,如企业资源规划(ERP)和客户关系管理(CRM),将使用 SAN 或 DAS 来存储数据库文件中的数据。因此,在实践中,人工智能的数据很可能来自 SAN 和 NAS 环境。
“人工智能数据可以存储在 NAS 或 SAN 中。这完全取决于人工智能工具希望或需要以何种方式访问数据,”StorMagic 首席产品官布鲁斯·科恩菲尔德(Bruce Kornfeld)表示,“你可以将人工智能数据存储在 SAN 上,但人工智能工具通常不会直接读取块数据。它们会使用一种文件访问协议来获取块数据。”
不一定有一种协议会优于另一种协议。这非常依赖于数据源的性质以及人工智能系统的输出。
对于主要依赖文档或图像的人工智能系统,NAS 可能已经足够快了。而对于自动驾驶或监控这类应用,系统可能会使用 SAN 甚至高速本地存储。
同样,数据架构师也需要区分项目中的训练和推理阶段,并考虑在存储系统间迁移数据的成本是否超过了性能提升带来的好处,尤其是在训练阶段。
(以上内容均由Ai生成)