月之暗面发布Kimi Linear：KV缓存减75%，推理提速6倍

发布时间：2025年10月31日来源：szf

快速阅读: 月之暗面发布“Kimi Linear”技术，优化Gated DeltaNet，提升RNN记忆效率。新架构在处理速度和内存占用上显著优于传统方法，适用于高速、高内存需求的AI任务，有望成行业标准。

近日，月之暗面发布了一项革命性的技术——“Kimi Linear”混合线性注意力架构。该架构在短距离、长距离处理及强化学习（RL）等多个领域，表现优于传统的全注意力方法。其核心创新点在于“Kimi Delta Attention”（KDA），这是对Gated DeltaNet的优化升级，引入了更高效的门控机制，以提高有限状态RNN（递归神经网络）的记忆使用效率。

Kimi Linear的架构设计独特，由三个Kimi Delta Attention模块和一个全局MLA（多层感知机）组成。通过改进Gated DeltaNet，KDA能够利用细粒度的门控机制，显著压缩有限状态RNN的记忆使用。这一设计不仅加快了模型处理信息的速度，还有效降低了内存占用，提升了其实用性。

官方数据显示，在处理100万token的场景下，Kimi Linear的KV缓存占用量减少了75%，解码吞吐量最高提升了6倍。在训练速度（TPOT）方面，相比传统MLA，Kimi Linear实现了6.3倍的加速。这些显著的性能提升，表明Kimi Linear在各类AI任务中具有广泛的适用性，特别是在对速度和内存有极高要求的应用场景中。

随着人工智能的快速发展，提高模型的处理能力和效率已成为行业内的关键挑战。月之暗面的Kimi Linear架构通过其创新设计，为这一领域提供了新的解决方案，未来可能成为新的行业标准。

对于Kimi Linear技术报告的详细信息，感兴趣的读者可访问官方GitHub页面了解其技术细节。技术报告链接：https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf

(以上内容均由Ai生成)