Ring-mini-2.0发布,性能超10B模型,推理速度突破500tokens
快速阅读: 今日推出Ring-mini-2.0,基于Ling-mini-2.0架构优化,总参数16B,实际仅需激活1.4B,推理能力媲美10B以下密集模型。支持128K长上下文,生成速度快,开源以促研究应用。
今天我们正式推出了Ring-mini-2.0,这是基于Ling-mini-2.0架构深度优化的高性能推理型MoE模型。Ring-mini-2.0的总参数量达到16B,但在实际运行中仅需激活1.4B参数,即可实现与10B级别以下密集模型相当的推理能力。
该模型在逻辑推理、编程和数学任务中表现出色,支持128K的长上下文,使其在多种应用场景中展现强大能力。此外,Ring-mini-2.0的生成速度也非常快,可达到300+ token/s,经过优化后甚至能突破500+ token/s。
在推理能力的提升方面,Ring-mini-2.0在Ling-mini-2.0-base的基础上进行了更深入的训练,通过Long-COT SFT、大规模RLVR和RLHF的联合优化,显著提高了模型在复杂推理任务中的稳定性和泛化能力。我们在多个高难度基准测试中发现,其性能明显优于10B以下的密集模型,甚至可与某些更大的MoE模型媲美,尤其是在逻辑推理方面表现突出。
Ring-mini-2.0的设计注重高效性,通过1/32的专家激活比和MTP层架构优化,实现了与7-8B密集模型等效的性能。这种高稀疏度和小激活设计,使其在H20环境下可实现300+ token/s的推理速度,结合Expert Dual Streaming的优化,进一步降低了推理成本。
为了促进学术界和工业界的研究与应用,Ring-mini-2.0的模型权重、训练策略和数据配方将全面开源。我们期待这款“小而优”的模型能够成为小型推理模型的首选,并欢迎访问我们的开源仓库下载和使用。未来,在Ling2.0架构的支持下,我们将继续推出更大、更快、更强的语言模型和全模态模型,敬请期待!
(以上内容均由Ai生成)