蚂蚁发布万亿参数模型Ling-1T,性能超越GPT-5
快速阅读: 蚂蚁集团开源Ling-1T,一万亿参数模型,采用FP8低精度训练。该模型在数学推理和代码生成上表现优异,正研究新架构解决超长上下文处理成本。
蚂蚁集团近日宣布开源其最新研发的旗舰大模型——Ling-1T,该模型拥有高达一万亿个参数,是目前所知使用FP8低精度模式训练的最大基座模型。Ling-1T由蚂蚁集团内部的“百灵”团队开发,标志着人工智能技术的一次重大突破。
据团队介绍,Ling-1T隶属于Ling2.0模型家族,该家族分为三大系列:Ling系列、Ring系列和Ming系列。Ling系列专注于处理通用任务,以速度和效率为核心;Ring系列则侧重于深度思考和复杂推理;Ming系列为多模态模型,能处理更加丰富多样的信息类型。
Ling-1T虽然参数量达到一万亿,但在处理每个token时,实际激活的参数约为500亿,显著降低了运算成本。为支持这一庞大模型,蚂蚁团队提出了“Ling缩放定律”,通过300多个模型的实验,总结出计算效率与专家激活比例之间的关系。此外,团队还研发了名为WSM的学习率调度器,能够在训练过程中自动调整学习策略,确保模型的稳定高效训练。
Ling-1T的训练过程分为三个阶段:预训练、中训练和后训练。预训练阶段,模型接触到的数据量超过20万亿个token,其中包括大量的推理密集型语料。中训练阶段则重点强化模型的推理能力,后训练阶段通过“演进式思维链”技术进行自我迭代,提高推理精度。
与其他主流模型相比,Ling-1T在多个测试中表现出色,特别是在数学推理和代码生成能力上,展现了卓越的性能。在社区测试中,Ling-1T在处理复杂任务时也表现出色,例如成功模拟物理现象和宇宙演化等。
尽管Ling-1T展示了强大的能力,但在处理超长上下文时仍面临较高的成本问题。蚂蚁团队表示,正在研究新的混合注意力架构来解决这一挑战。
开源地址:
HuggingFace: https://huggingface.co/inclusionAI/Ling-1T
GitHub: https://github.com/inclusionAI/Ling-V2
划重点:
– Ling-1T是目前所知最大的一万亿参数模型,采用FP8低精度模式训练。
– 该模型在数学推理和代码生成方面超越了多个主流模型,表现出色。
– 蚂蚁团队正在研究新架构以解决Ling-1T在处理超长上下文时的成本问题。
(以上内容均由Ai生成)