Moonshot AI发布Kimi Linear，线性注意力提速6倍

发布时间：2025年10月31日来源：szf

快速阅读: Moonshot AI 发布 Kimi Linear 技术报告，推出高效线性架构，显著提升速度、内存效率和长上下文处理能力，减少缓存使用量75%，解码吞吐量提升6倍，优化长文本推理和多轮对话性能。

国产大模型团队 Moonshot AI 今日在 Hugging Face 发布技术报告《Kimi Linear Tech Report》，宣布推出全新架构 Kimi Linear。这是一种能够直接替代完全注意力机制（Full Attention）的混合线性架构，具备高效性和卓越性能，被誉为“智能体时代注意力机制的新起点”。

报告指出，Kimi Linear 在速度、内存效率和长上下文处理能力三个方面均取得了显著进展。该模型可将 KV 缓存使用量减少高达 75%，并在 100 万（1M）上下文长度下实现最高 6 倍的解码吞吐量提升，大幅优化了长文本推理和多轮对话的性能。

Kimi Linear 的核心创新包括三项关键技术：Delta Attention 是一种硬件高效的线性注意力机制，通过门控 Delta 规则优化结构，实现了性能与能耗的平衡；Linear Architecture 是首个在多项指标上全面超越传统完全注意力机制的混合线性架构，兼顾了速度和模型表达能力；开放生态与实证验证方面，Moonshot 提供了开源 KDA 内核、vLLM 集成支持及模型检查点，并进行了大规模且公正的对比实验，验证了 Kimi Linear 的稳定性和可扩展性。

Moonshot AI 表示，Kimi Linear 不仅是一项架构创新，也是为智能体（AI Agent）时代设计的基础机制。随着线性注意力技术的成熟，它有望在长上下文推理、智能助手、多模态生成等应用场景中成为下一代标准。

地址：https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

(以上内容均由Ai生成)