Moonshot AI发布Kimi Linear,线性注意力提速6倍
 
                            快速阅读: Moonshot AI 发布 Kimi Linear 技术报告,推出高效线性架构,显著提升速度、内存效率和长上下文处理能力,减少缓存使用量75%,解码吞吐量提升6倍,优化长文本推理和多轮对话性能。
国产大模型团队 Moonshot AI 今日在 Hugging Face 发布技术报告《Kimi Linear Tech Report》,宣布推出全新架构 Kimi Linear。这是一种能够直接替代完全注意力机制(Full Attention)的混合线性架构,具备高效性和卓越性能,被誉为“智能体时代注意力机制的新起点”。
报告指出,Kimi Linear 在速度、内存效率和长上下文处理能力三个方面均取得了显著进展。该模型可将 KV 缓存使用量减少高达 75%,并在 100 万(1M)上下文长度下实现最高 6 倍的解码吞吐量提升,大幅优化了长文本推理和多轮对话的性能。
Kimi Linear 的核心创新包括三项关键技术:Delta Attention 是一种硬件高效的线性注意力机制,通过门控 Delta 规则优化结构,实现了性能与能耗的平衡;Linear Architecture 是首个在多项指标上全面超越传统完全注意力机制的混合线性架构,兼顾了速度和模型表达能力;开放生态与实证验证方面,Moonshot 提供了开源 KDA 内核、vLLM 集成支持及模型检查点,并进行了大规模且公正的对比实验,验证了 Kimi Linear 的稳定性和可扩展性。
Moonshot AI 表示,Kimi Linear 不仅是一项架构创新,也是为智能体(AI Agent)时代设计的基础机制。随着线性注意力技术的成熟,它有望在长上下文推理、智能助手、多模态生成等应用场景中成为下一代标准。
地址:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
(以上内容均由Ai生成)
 
                                                                             
                                                                             
                                                                             
                                                                             
                                                                             
                                                                             
                                                                            