Red Hat启动llm-d社区和项目

发布时间：2025年5月22日来源：szf

快速阅读: 据《计算机周刊》称，红帽推出开源项目llm-d，基于Kubernetes架构，优化生成式AI推理性能，降低延迟和成本。该项目获多家科技巨头支持，旨在让AI推理更高效、普及，推动生成式AI广泛应用。

红帽公司宣布推出 **llm-d**，这是一个旨在通过大规模推理应对生成式人工智能未来的全新开源项目。

基于原生 Kubernetes 架构，llm-d 具备基于 vLLM 的分布式推理和智能 AI 感知网络路由功能，可使大型语言模型（LLM）推理云满足严格的生产服务级别目标（SLO）。该项目旨在让生产级生成式人工智能像 Linux 一样无处不在。虽然训练仍然重要，但红帽表示，生成式人工智能的“真正影响”取决于更高效、能高效扩展的推理能力——这一引擎将 AI 模型转化为可行的见解和用户体验。

根据高德纳（Gartner）预测的魔力象限分析，“到 2028 年，随着市场成熟，超过 80% 的数据中心工作负载加速器将专门用于推理，而非训练用途。”这表明生成式人工智能的未来在于执行能力。日益复杂的大型模型所需的资源需求不断增加，这种需求正在威胁因高昂成本和严重延迟而阻碍 AI 创新。

### 对可扩展生成式 AI 推理的需求
红帽及其行业合作伙伴正通过 llm-d 项目直接应对这一挑战，该项目放大了 vLLM 的能力，超越单服务器限制，在大规模范围内解锁 AI 推理的生产潜力。

让我们在此特别关注 vLLM，它已成为开源事实上的标准推理服务器，为前沿模型提供开箱即用支持，并支持一系列加速器，如今还包括 Google Cloud 提供的 Tensor 处理单元（TPU）。在这里，我们发现预填充与解码分离，即将 AI 的输入上下文和令牌生成阶段分离为离散操作，然后可以在多台服务器上分布这些操作。

基于 LMCache 的 KV（键值）缓存卸载将 KV 缓存的内存负担从 GPU 内存转移到更经济高效的普通存储，例如 CPU 内存或网络存储。

### 不受基础设施约束
根据红帽的说法，“AI 的未来必须由无限机会定义，而不是受制于基础设施孤岛。红帽看到一个地平线，在那里组织可以在任何加速器上部署任何模型，跨越任何云，提供卓越且更一致的用户体验，而无需高昂的成本。为了释放生成式 AI 投资的真正潜力，企业需要一个通用推理平台——一种标准，以实现今天和未来的无缝、高性能 AI 创新。”

这项技术包括 AI 感知网络路由，用于调度请求至最有可能拥有过去推理计算热缓存的服务器和加速器。

这个新的开源项目已经获得了领先的生成式 AI 模型提供商、AI 加速器先驱和 AI 云平台联合体的支持。CoreWeave、Google Cloud、IBM Research 和专注于资本化的 GPU 公司 NVIDIA 是创始贡献者，AMD、思科、英特尔、Lambda 和 Mistral AI 参与其中。

llm-d 社区还得到了加州大学 Sky Computing 实验室（vLLM 的发起者）和芝加哥大学 LMCache 实验室（LMCache 的发起者）的初始支持。

—

**llm-d**：解锁生成式 AI 的未来潜能
**红帽**：让 AI 更普惠、更高效

(以上内容均由Ai生成)