Red Hat启动llm-d社区和项目

发布时间:2025年5月22日    来源:szf
Red Hat启动llm-d社区和项目

快速阅读: 据《计算机周刊》称,红帽推出开源项目llm-d,基于Kubernetes架构,优化生成式AI推理性能,降低延迟和成本。该项目获多家科技巨头支持,旨在让AI推理更高效、普及,推动生成式AI广泛应用。

红帽公司宣布推出 **llm-d**,这是一个旨在通过大规模推理应对生成式人工智能未来的全新开源项目。

基于原生 Kubernetes 架构,llm-d 具备基于 vLLM 的分布式推理和智能 AI 感知网络路由功能,可使大型语言模型(LLM)推理云满足严格的生产服务级别目标(SLO)。该项目旨在让生产级生成式人工智能像 Linux 一样无处不在。虽然训练仍然重要,但红帽表示,生成式人工智能的“真正影响”取决于更高效、能高效扩展的推理能力——这一引擎将 AI 模型转化为可行的见解和用户体验。

根据高德纳(Gartner)预测的魔力象限分析,“到 2028 年,随着市场成熟,超过 80% 的数据中心工作负载加速器将专门用于推理,而非训练用途。”这表明生成式人工智能的未来在于执行能力。日益复杂的大型模型所需的资源需求不断增加,这种需求正在威胁因高昂成本和严重延迟而阻碍 AI 创新。

### 对可扩展生成式 AI 推理的需求
红帽及其行业合作伙伴正通过 llm-d 项目直接应对这一挑战,该项目放大了 vLLM 的能力,超越单服务器限制,在大规模范围内解锁 AI 推理的生产潜力。

让我们在此特别关注 vLLM,它已成为开源事实上的标准推理服务器,为前沿模型提供开箱即用支持,并支持一系列加速器,如今还包括 Google Cloud 提供的 Tensor 处理单元(TPU)。在这里,我们发现预填充与解码分离,即将 AI 的输入上下文和令牌生成阶段分离为离散操作,然后可以在多台服务器上分布这些操作。

基于 LMCache 的 KV(键值)缓存卸载将 KV 缓存的内存负担从 GPU 内存转移到更经济高效的普通存储,例如 CPU 内存或网络存储。

### 不受基础设施约束
根据红帽的说法,“AI 的未来必须由无限机会定义,而不是受制于基础设施孤岛。红帽看到一个地平线,在那里组织可以在任何加速器上部署任何模型,跨越任何云,提供卓越且更一致的用户体验,而无需高昂的成本。为了释放生成式 AI 投资的真正潜力,企业需要一个通用推理平台——一种标准,以实现今天和未来的无缝、高性能 AI 创新。”

这项技术包括 AI 感知网络路由,用于调度请求至最有可能拥有过去推理计算热缓存的服务器和加速器。

这个新的开源项目已经获得了领先的生成式 AI 模型提供商、AI 加速器先驱和 AI 云平台联合体的支持。CoreWeave、Google Cloud、IBM Research 和专注于资本化的 GPU 公司 NVIDIA 是创始贡献者,AMD、思科、英特尔、Lambda 和 Mistral AI 参与其中。

llm-d 社区还得到了加州大学 Sky Computing 实验室(vLLM 的发起者)和芝加哥大学 LMCache 实验室(LMCache 的发起者)的初始支持。

**llm-d**:解锁生成式 AI 的未来潜能
**红帽**:让 AI 更普惠、更高效

(以上内容均由Ai生成)

关键词: hatLlmRed启动社区

你可能还想读

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日
人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

快速阅读: 据《印度教业务线》称,印度联合创始人纳南·尼莱卡尼表示,AI应用于解决实际问题,提升医疗与教育,强调简约设计和持续创新,反对全民基本收入,主张用AI放大人类潜力。 据《亚洲时报》报道,7月27日,纽约,印度信息技术服务巨头Inf […]

发布时间:2025年8月1日
苹果首席执行官蒂姆·库克表示,苹果准备打开钱包在人工智能领域迎头赶上

苹果首席执行官蒂姆·库克表示,苹果准备打开钱包在人工智能领域迎头赶上

快速阅读: 据《香港标准》称,下载《标准》App,获取新闻、动态和大事:https://www.thestandard.com.hk/appdownload 下载《标准》应用程序,及时获取新闻、最新动态和重大事件: https://www. […]

发布时间:2025年8月1日