Mooncake破解大模型推理“三角困境”,开源共建智算基础设施

发布时间:2025年10月27日    来源:szf
Mooncake破解大模型推理“三角困境”,开源共建智算基础设施

快速阅读: Mooncake项目通过计算存储解耦,解决大模型推理中的成本、吞吐量和长上下文处理难题,采用PD分离和KVCache池化技术,优化用户体验,提高资源利用率,支持多租户和云原生集成,推动AI基础设施发展。

引言:大模型推理落地的“三角困境” 当大模型从技术探索走向产业落地,推理环节的“成本、吞吐、长上下文”三大难题逐渐成为行业规模化应用的核心阻碍。企业既希望降低每兆 Token 的推理成本,又要保证高并发场景下的吞吐效率,还需满足 VibeCoding、多轮对话等场景的长文本处理需求。这三者之间的矛盾如同“三角困局”,难以兼顾。

在此背景下,开源项目 Mooncake 以“计算存储解耦”为核心思路,通过 PD 分离(Prefill-Decode 分离)、KVCache 池化等技术,为大模型推理提供了重要的底层基础设施支撑。「AI 进化论:智算时代 OS 的破局之路」第五期直播,聚焦「Mooncake 如何破解大模型推理成本、吞吐与上下文困局」,邀请清华大学章明星教授(Mooncake 联合发起人)与阿里云高级技术专家马腾博士(Mooncake 核心贡献者),从学术研发与产业落地双视角,拆解 Mooncake 的技术逻辑、开源价值与企业实践,并为智算时代 OS 的演进提供参考。

以下为经编辑整理的访谈内容精要。

行业痛点与 Mooncake 项目背景 Q1:当前大模型推理落地加速,行业普遍面临成本、吞吐、长上下文难题,两位在各自领域感受到的最突出的挑战是什么? @章明星(清华大学) 总体而言,还是一个成本和用户体验之间的权衡。我们做系统常讲,永远没有完美的方案,在某一场景下表现优异,在另一场景可能就会有所折损。Mooncake 架构最初就是为了保障用户体验而提出的。大模型推理包含两个阶段:一是 Prefill,主要负责处理用户的长段输入;二是 Decode,即逐词输出结果。像 Kimi 这类面向 ToC 的应用,输出流畅度至关重要。如果 Prefill 和 Decode 混合部署在同一 GPU 上,会产生干扰,导致输出时断时续,影响体验。因此,我们采用了分离式结构,并为了支持多轮对话和共享提示词,构建了大的 KVCache 缓存池,这是 Mooncake 架构的起点。

今年以来,随着 DeepSeek、Kimi K2 等参数量巨大(如 600B、1TB 以上)的模型出现,我们需要为 Prefill 和 Decode 设计不同的并行策略,以提升吞吐、降低成本。同时,VibeCoding 等业务上线后,对话上下文长度从原来的 1K、2K 显著增长至几十 K。在这种长文本场景下,分离架构已成为必须,但还需结合 SpecDecoding 等新技术来保证输出速度并控制成本。

@马腾(阿里云) 我从另一个角度谈谈。成本、吞吐和上下文长度,这三者像一个“三角关系”。若要支持很长上下文,可能需要独占大量显存;若追求高吞吐,则需进行批量处理(batching)来打满计算单元,但这又会限制并发处理的上下文长度。在此基础上,还要考虑成本因素——使用高端 GPU 成本高昂。Mooncake 的 PD 分离、分层存储等技术,正是在这三者间寻找平衡点。并且,PD 分离并非万能,例如在离线推理场景,更关注吞吐和成本,对实时性要求不高,就需要不同的推理策略。多轮对话、CloudCode 等场景,也需基于 Mooncake 这一底层基础设施进行针对性调优。

Q2:现在产学研协同做技术突破很常见,Mooncake 作为其中代表,最初发起的核心诉求是什么?开源模式对项目推进有哪些帮助? @马腾(阿里云) 最初是去年六、七月份,我们看到了 Kimi 和清华联合发布的 Mooncake 技术报告,其核心是 KVCache 池化,很感兴趣。我与章老师认识已久,便一起探讨——最初 Mooncake 主要在 Kimi 内部使用,开源内容有限。我们就在想,如何将其做成业界能复用的开源项目,于是筹备了三个月推出第一版代码,去年 11 月正式开源后,逐步调整方向与上层推理框架对接,到今年五、六月份才基本完成。

开源的内在逻辑是构建生态循环。在 AI 时代,技术竞争激烈,闭门造车难以持续领先。通过开源贡献想法,吸引大家共同开发,不仅能自身受益,也能推动整个产业进步,避免重复建设。现在蚂蚁、摩尔线程等企业也参与进来,Mooncake 能覆盖更多场景。

@章明星(清华大学) 最初的核心诉求,是希望将单一公司的推理引擎,转变为业界通用的基础设施。早期我们与月之暗面共同梳理了技术报告,后来为了推广,决定开源。开源最大的价值是降低协作成本,汇聚产业力量——若仅由清华或 Kimi 主导,力量有限,外界也可能担心其专属性。借助龙蜥社区这类开源运营团队,大家有了互信基础。目前 AI 领域从学术到产业的转化周期极短,开源能加速这一过程,使 Mooncake 从“实验室技术”快速转化为“产业级方案”。

Q3:阿里云在基础软件国产化方面的积累,对 Mooncake 项目的技术方向有哪些影响? @马腾(阿里云) 初期适配存在挑战,例如如何高效利用阿里云的自研网络(如 eRDMA)和硬件(如 PPU)。比如 eRDMA 网络,端到端打通后,性能调优花了我们一、两个月;还有硬件拓扑感知,云上服务器卡数与网卡配置与传统环境不同,需要专门处理。我们的核心开发者任峰扩展了底层传输引擎的思路,目前这套拓扑感知方案也能被其他企业复用。

此外,我们通过龙蜥社区的 AI SIG、智算基础设施联盟,汇聚了国产生态伙伴,将阿里自身技术融入,降低了适配成本。Mooncake 对底层硬件性能压榨很极致,需要操作系统、驱动协同优化,开源社区能有效促进硬件厂商、软件团队协作,快速适配各类新型硬件和协议。

Mooncake 的核心技术与设计逻辑 Q4:针对推理痛点,Mooncake 的核心解决思路和行业传统方案比,最大差异在哪?对底层操作系统又提出了哪些新要求? @章明星(清华大学) 最大差异在于“分离式架构”——将传统数据中心的解耦思想,应用于 AI 数据中心。传统方案多是“同构 SILO”,一台机器承载所有功能;Mooncake 则以 KVCache 为中心 实现分离:Prefill 生成 KVCache,KVCache Pool 负责缓存,Decode 消费 KVCache。这不仅实现了 PD 分离,还使 KVCache 独立管理。同期北大、微软也有类似 PD 分离思路,但 Mooncake 是较早成熟并大规模应用的,并拓展了分离边界,例如将 Decode 中的 Act-Offload 和 Attention 拆分到不同设备。

这对底层操作系统的核心要求是“极致的硬件性能压榨”。当前 GPU 速度极快,其他设备必须跟上。网络带宽发展快于本地内存,分离架构带来的通信成本在可接受范围,甚至更优;需要操作系统支持更多的异步操作、零拷贝数据传输,并能感知复杂硬件拓扑(如 NVLink、PCIe、外部网络),同时具备更好的故障容错能力。这些都要求 OS 提供更细粒度的硬件抽象和信息暴露。

@马腾(阿里云) 从操作系统角度看,现有通用 OS 内核与“解耦”概念存在差距。未来大规模推理可能趋向“Multikernel”(多核内核)架构——集群对外呈现为一个统一操作系统。现阶段,OS 需要成为硬件与 Mooncake 之间的桥梁,协助完成驱动层适配,抽象硬件能力。例如阿里云的智算镜像,就将 Mooncake 及其依赖打包,用户无需关心底层适配,实现开箱即用。

Q5:KVCache 池化和高效传输是 Mooncake 的关键技术,从技术落地看,最难突破的环节是什么? @马腾(阿里云) 我博士期间就研究内存池化,但传统场景缺乏杀手级应用。直到 KVCache 场景出现,TB 级内存池化才真正发挥价值。

最难的是“标准化”和“规模化”。早期内存池化缺乏统一 API,Mooncake 需要定义一套能对接各类推理框架的标准接口。规模化后,多租户管理、云原生集成、兼容 CXL、RDMA 等新协议都是挑战。Mooncake 的传输引擎(Transport Engine)是关键,它适配了 eRDMA、GPU Direct 等技术,实现低延迟传输,是架构简洁性的基础。

@章明星(清华大学) 核心难点是“跟上硬件发展速度”。硬件速率快速提升,对代码效率要求极高,微秒、纳秒级的操作不能有任何瓶颈。同时需协调众多异构设备,优化数据路径。KVCache 池化的效益提升存在“边际递增”现象,例如命中率从 90% 提升到 95%,看似仅 5%,但重算量从 10% 降为 5%,相当于计算量减半。因此需不断优化分层设计和数据局部性,扩大池化容量而不牺牲性能。

Q6:从科研到工程落地,技术方案往往需要调整,Mooncake 是如何适配企业级需求的? @章明星(清华大学) 早期 Mooncake 以“快速上线”为首要目标,对企业级需求的考量相对不足。随着用户增多,可靠性、稳定性、兼容性成为必须解决的问题。这是一个需要细致打磨的过程:例如提升可用性,实现动态弹性伸缩;增强兼容性,支持 eRDMA、CXL 等新协议,每个协议的适配都需要反复调试。

蚂蚁集团的参与很有代表性——他们的多轮对话场景需要更大的 KVCache 容量和更快的换入换出速度,经共同优化后,其 TTFT(首词响应时间)显著降低。企业级场景还需考虑多租户、云原生集成,我们与阿里 ACK 团队合作,将 Mooncake 融入云原生生态,解决资源调度问题。

@马腾(阿里云) 工业界部署强调灵活性,不能期望一套方案解决所有问题。我们将 Mooncake 拆分为多个子项目(如传输引擎、Mooncake Store、Checkpoint Engine 等),不同场景可选用不同模块,便于维护。开源社区在此作用关键:企业需求多样,单靠一方难以满足。在社区中,硬件厂商可自行适配,我们再整合优化方案,避免生态碎片化。未来我们希望将 Mooncake 捐赠给基金会,使其发展更中立、可持续。

Mooncake 的行业实践与效果验证 Q7:主流推理框架(vLLM/SGLang 等)各有特性,Mooncake 适配这些框架时,遇到的共性挑战是什么? @马腾(阿里云) 共性挑战是“框架接口差异大”。我们先后对接 vLLM 和 SGLang,但两者模式不同:SGLang 倾向点对点传输,vLLM 则更适合使用 Mooncake Store 的 Put/Get 语义。如何在保持 Mooncake 核心架构不变的前提下,适配不同框架是一大挑战。

我们的策略是“复用组件 + 抽象中间层”。能复用的核心组件(如传输引擎)尽量复用,保持技术栈简洁;无法直接复用的,则通过 Mooncake Store 这类通用中间层进行适配。例如,蔡尚明老师在对接 vLLM 时,尝试了不同方案,最终通过 Mooncake Store 取得了良好效果。实际测试表明,在 SGLang 上使用 Mooncake 进行 PD 分离后,吞吐提升超过 30%,TTFT 降低 20%。

Q8:阿里云、蚂蚁已部署 Mooncake,这些企业级场景的需求,反过来对项目有哪些迭代推动? @马腾(阿里云) 蚂蚁的多轮对话场景,直接推动了 KVCache 池的优化。在该场景下,不复用 KVCache 会导致延迟急剧上升。蚂蚁的同事提出利用 Mooncake Store 实现 KVCache 复用,我们共同对接了 SGLang 的 BlackCache,优化后 TTFT 提升显著。

在阿里云平台上,云环境的多租户需求推动了 Mooncake 的资源隔离能力建设。我们为 Mooncake Store 增加了隔离机制,并实现了 VRAM 池化,整合闲置的 GPU 显存资源提升利用率。同时,通过将不活跃的 KVCache 下沉至本地磁盘或 CFS 分布式存储,在性能影响较小(约 20%)的情况下,显著降低了成本。

章明星(清华大学)表示,企业级应用场景使得 Mooncake 更具实用性和健壮性。例如,阿里云的 eRDMA 网络经过适配优化,提高了带宽利用率;蚂蚁集团的长文本需求促进了 KVCache 分层存储的实施。此外,企业场景对易用性的高要求,促使我们开发了自动配置工具,通过结合传统统计模型与业务 SLO(如 TTFT、吞吐要求),自动推荐最优资源配置,降低了人工调优的成本。

针对 0.2 美元/1M Token 的低成本实现问题,章明星认为,在特定条件下,如具有足够高的并发量以充分利用 GPU 算力,且对输出速度要求不高(如对话场景下的 15-20 Token/秒),这一成本目标是可以达成的。对于新模型成本较高的观点,他认为需要区别看待:开源模型架构稳定后,推理成本实际上在下降;而部分商业模型的定价策略并不完全反映实际物理成本。此外,Token 用量的增长速度有时超过成本下降的速度,如 Agent 应用消耗巨大,导致总体支出增加。未来的降本方向将是“价值工程”,即通过整体优化,根据不同环节的需求混合使用不同规模的模型和策略。

马腾(阿里云)指出,低成本的关键在于“资源利用率的最大化”。云服务的本质是资源共享,Mooncake 通过 KVCache 池化、PD 分离等技术,显著提升了 GPU 算力和显存的使用效率。虽然新模型成本高的问题部分源于硬件迭代,但可以通过技术优化来抵消,比如存储下沉、VRAM 池化。未来,在多智能体场景中,不一定需要全部使用大型模型,通过优化协作流程同样可以实现成本效益的提高。

关于大模型推理技术的发展方向,马腾认为将朝着“AI 感知操作系统”和“大规模协同”方向前进。操作系统需更深入地优化网络、存储、GPU 调度,并具备 AI 感知能力。Mooncake Store V2 的设计基于两个趋势:一是云环境中多租户共享的需求,允许多个用户安全共享通用提示词的 KVCache 以降低成本;二是 KVCache 容量需求持续增长,需要引入廉价存储(如磁盘)进行分层存储,以在成本与性能之间找到平衡。

章明星补充说,推理技术将更加灵活,以适应 Agent 时代多样化的需要。Mooncake 将支持动态调整配置,并注重局部性优化,减少跨节点的数据传输开销,支持 CXL 等新协议,以满足长文本、多轮对话场景对容量和性能的要求。

对于 Mooncake 生态的拓展,马腾强调将遵循“开放、公平”的原则,吸引更多企业和高校参与,避免单一主导。项目计划捐赠给基金会,确保其中立发展。他建议开发者可以从传统技术领域入手,如存储、网络知识在 Mooncake 中的应用。参与开源社区是快速了解行业需求、提升个人影响力的途径。

章明星则认为,生态拓展应侧重“标准化和自动化”。推动接口标准化,并开发智能调优工具以降低使用门槛。加强与大平台(如云原生调度平台)的合作。他建议团队和开发者寻找自身技术与 AI 基础设施的衔接点,开源社区提供了宝贵的学习和成长机会。

章明星还提到,Mooncake 的实践对大模型推理领域的技术范式、操作系统演进的主要启发是“分离式架构逐渐成为共识”。通过 PD 分离、KVCache 独立管理,可以在成本、吞吐量和长上下文之间取得更好的平衡,形成新的技术范式。同时,产学研协同的开源模式为国内 AI 基础设施项目提供了重要参考。对操作系统演进的启发在于“功能扩展”。操作系统需要提供更细粒度的硬件抽象和管理能力,以支持 AI 推理的特殊需求,如拓扑感知、高效数据搬运。未来,传输引擎等组件的部分功能可能会被整合到操作系统层面,成为其原生能力。

马腾补充道,对技术范式的启发在于“以存储换计算”。通过 KVCache 池化,用存储资源换取计算资源,提高效率。“被集成”的理念至关重要,Mooncake 致力于增强而非替代现有生态系统。对操作系统的启发在于“更贴近 AI 需求”。操作系统需要优化 GPU 利用率、支持异构设备协同工作、具备 AI 感知能力。例如,阿里云的智算镜像集成了 Mooncake 与操作系统,让用户能够开箱即用。未来,操作系统可能会更加轻量化、灵活,以快速适应新硬件和新协议。

总结而言,Mooncake 的价值不仅在于为解决大模型推理的“三角困境”提供了技术思路,更在于通过开源模式探索了产学研协同的新路径,将传统基础设施技术与 AI 需求相结合,形成了“技术创新 – 产业落地 – 需求反馈”的良性循环。随着大模型推理从“单点优化”向“系统协同”转变,需要更多像 Mooncake 这样的开源项目汇聚行业力量,推动技术标准化和成本优化。未来,随着分离式架构的深化和操作系统的 AI 化发展,大模型推理有望更好地支持各行业的智能化转型。

(以上内容均由Ai生成)

你可能还想读

腾讯发布AI编程助手Ada,提升开发效率

腾讯发布AI编程助手Ada,提升开发效率

快速阅读: 腾讯发布AI程序员Ada,具备一键提需求、自动修复缺陷、生成文档等功能,简化开发流程,提升效率与项目可维护性,已在2025年1024开发者节上成功展示。 在科技飞速发展的今天,人工智能已逐渐成为软件开发不可或缺的组成部分。近日, […]

发布时间:2025年10月27日
ChatGPT集成八大平台,变身生活全能助手

ChatGPT集成八大平台,变身生活全能助手

快速阅读: OpenAI将ChatGPT升级为智能代理,推出八款深度集成应用,涵盖旅行、设计、学习等领域,实现一键操作,提升用户体验,功能目前限美加地区。 OpenAI正在将ChatGPT从“会聊天的人工智能”全面升级为“能办事的智能代理” […]

发布时间:2025年10月27日
谷歌云与Anthropic达成数十亿美元协议,加速AI发展

谷歌云与Anthropic达成数十亿美元协议,加速AI发展

快速阅读: Anthropic与谷歌达成协议,将获100万TPU芯片,增强AI模型Claude的训练与运行能力,此举加强了谷歌在云计算和AI芯片领域的地位。尽管如此,Anthropic仍视亚马逊为主要合作伙伴。 Anthropic 已与谷歌 […]

发布时间:2025年10月27日
自主交易需严格可控,AI风险亟待治理

自主交易需严格可控,AI风险亟待治理

快速阅读: 自主AI代理步入真实市场,提升效率同时带来系统性风险。监管机构警告现有控制措施过时,需构建可证明安全的标准,确保身份、数据输入及决策的透明与不可篡改。 披露:本文观点仅代表作者个人,不代表crypto.news编辑部立场。 在现 […]

发布时间:2025年10月27日
字节跳动联手港校开源DreamOmni2,突破AI图像编辑难题

字节跳动联手港校开源DreamOmni2,突破AI图像编辑难题

快速阅读: 字节跳动与香港多所大学联合研发的DreamOmni2系统正式开源,实现多模态指令理解,大幅提升图像编辑生成技术,为AI创作开辟新途径。 在人工智能图像编辑与生成领域,一项新的突破性技术引起了广泛关注。字节跳动与香港中文大学、香港 […]

发布时间:2025年10月27日
MiniMax开源M2模型,性能超群成本低至竞品8%

MiniMax开源M2模型,性能超群成本低至竞品8%

快速阅读: 中国AI公司MiniMax发布开源模型MiniMax M2,总参数2300亿,推理激活100亿参数,成本低、速度快,支持复杂任务,全球开源,领先同类模型。 【AIbase报道】2025年10月27日,中国AI初创公司MiniMa […]

发布时间:2025年10月27日
SK海力士推AI定制NAND存储,性能全面提升

SK海力士推AI定制NAND存储,性能全面提升

快速阅读: SK 海力士推出专为人工智能定制的“AI-NAND”存储产品系列,优化性能、带宽和存储密度,满足市场对高效数据处理的需求,通过与客户及伙伴合作,推动存储技术进步。 SK 海力士在近期的全球活动中,展示了其面向人工智能(AI)产业 […]

发布时间:2025年10月27日
火山引擎发布豆包视频模型1.0pro fast,提速3倍成本降72%

火山引擎发布豆包视频模型1.0pro fast,提速3倍成本降72%

快速阅读: 火山引擎发布豆包视频生成模型1.0pro fast,生成速度快3倍,成本降低72%,适用于初创团队和内容实验,大幅降低AI工具使用门槛。 10月24日,火山引擎在AI视频创作领域再度取得突破,正式推出豆包视频生成模型1.0pro […]

发布时间:2025年10月27日