Ring-mini-2.0发布，性能超10B模型，推理速度突破500tokens

发布时间：2025年9月18日来源：szf

快速阅读: 今日推出Ring-mini-2.0，基于Ling-mini-2.0架构优化，总参数16B，实际仅需激活1.4B，推理能力媲美10B以下密集模型。支持128K长上下文，生成速度快，开源以促研究应用。

今天我们正式推出了Ring-mini-2.0，这是基于Ling-mini-2.0架构深度优化的高性能推理型MoE模型。Ring-mini-2.0的总参数量达到16B，但在实际运行中仅需激活1.4B参数，即可实现与10B级别以下密集模型相当的推理能力。

该模型在逻辑推理、编程和数学任务中表现出色，支持128K的长上下文，使其在多种应用场景中展现强大能力。此外，Ring-mini-2.0的生成速度也非常快，可达到300+ token/s，经过优化后甚至能突破500+ token/s。

在推理能力的提升方面，Ring-mini-2.0在Ling-mini-2.0-base的基础上进行了更深入的训练，通过Long-COT SFT、大规模RLVR和RLHF的联合优化，显著提高了模型在复杂推理任务中的稳定性和泛化能力。我们在多个高难度基准测试中发现，其性能明显优于10B以下的密集模型，甚至可与某些更大的MoE模型媲美，尤其是在逻辑推理方面表现突出。

Ring-mini-2.0的设计注重高效性，通过1/32的专家激活比和MTP层架构优化，实现了与7-8B密集模型等效的性能。这种高稀疏度和小激活设计，使其在H20环境下可实现300+ token/s的推理速度，结合Expert Dual Streaming的优化，进一步降低了推理成本。

为了促进学术界和工业界的研究与应用，Ring-mini-2.0的模型权重、训练策略和数据配方将全面开源。我们期待这款“小而优”的模型能够成为小型推理模型的首选，并欢迎访问我们的开源仓库下载和使用。未来，在Ling2.0架构的支持下，我们将继续推出更大、更快、更强的语言模型和全模态模型，敬请期待！

(以上内容均由Ai生成)