蚂蚁百灵开源高性能思考模型Ring-flash-2.0,推理能力大幅提升
快速阅读: 蚂蚁百灵团队开源Ring-flash-2.0模型,总参数量100亿,每次推理激活6.1亿参数,性能超越40亿参数模型,支持数学竞赛、代码生成及逻辑推理,采用两阶段强化学习训练,模型权重及数据配方全开源。
近日,蚂蚁百灵大模型团队正式宣布开源其最新高性能思考模型——Ring-flash-2.0。该模型基于Ling-flash-2.0-base进行了深度优化,标志着人工智能领域的一大进步。Ring-flash-2.0的总参数量达100亿,但在每次推理时仅激活6.1亿参数,这种高效的激活机制不仅赋予模型强大的计算能力,还大幅节省了资源。
据团队介绍,Ring-flash-2.0在多个高难度基准测试中表现出色,涵盖数学竞赛、代码生成及逻辑推理等领域。其性能不仅超过了同级别的40亿参数模型,还能与更大规模的开源稀疏模型(MoE)以及某些闭源的高性能思考模型API相匹敌,展示了其显著的竞争优势。
为了全面提高Ring-flash-2.0的模型能力,蚂蚁百灵团队设计了一套创新的两阶段强化学习(RL)训练流程。首先,通过轻量级的Long-CoT(长序列链式思考)SFT(有监督微调),使Ling-flash-2.0-base模型具备多种思考方式。随后,采用带有可验证奖励的RLVR(强化学习可验证奖励)训练,不断挖掘模型的推理潜力。最后,引入了强化学习人类反馈(RLHF)阶段,以增强模型的通用性。
值得一提的是,Ring-flash-2.0的模型权重、强化学习训练方案及数据配方将全部开源,为开发者和研究者提供了宝贵的资源。有兴趣的用户可在Hugging Face和ModelScope平台上获取相关信息,开始探索这一强大模型。
随着AI技术的持续发展,Ring-flash-2.0无疑为未来智能应用开辟了新的可能性,期待其在各领域的广泛应用和进一步突破。模型地址:https://huggingface.co/inclusionAI/Ring-flash-2.0 https://modelscope.cn/models/inclusionAI/Ring-flash-2.0
(以上内容均由Ai生成)