Llama 4 牛群：原生多模态 AI 创新新时代的开始

发布时间：2025年4月6日来源：szf

快速阅读: 据《脸书人工智能》称，训练两万亿参数模型需大幅优化数据和方法，通过调整SFT和强化学习提升性能，并重构基础设施加速迭代。此突破显著增强模型推理、编码及多任务处理能力，树立人工智能训练新标准。

训练一个拥有两万亿参数的模型同样是一项艰巨的任务，这意味着我们需要从数据规模入手，全面调整和优化方法。为了实现最佳性能，我们必须剪枝95%的SFT数据，而不是像处理小模型时仅剪枝50%，以确保质量与效率的高度聚焦。此外，我们发现，先进行轻量级的SFT，随后进行大规模强化学习（强化学习），可以显著增强模型的推理和编码能力。我们的强化学习方法通过策略模型的pass@k分析来采样难题提示，并精心设计了一个逐步提升提示难度的训练流程。我们还发现，在训练过程中动态过滤掉无优势的提示，并构建包含多种能力混合提示的训练批次，对提升数学、推理和编码表现至关重要。最后，从多样化系统指令中采样对于确保模型保持遵循指令的能力，尤其是在推理和编码方面，并在各种任务中表现出色，是至关重要的。

鉴于这是前所未有的规模，针对两万亿参数模型的强化学习扩展也需要重构我们底层的强化学习基础设施。我们优化了MoE并行化的速度设计，从而加快迭代速度。我们开发了一种全异步的在线强化学习训练框架，增强了灵活性。相较于现有的分布式训练方式，我们的新基础设施能够灵活分配不同模型到独立的GPU上，根据计算速度平衡多模型间的资源分配。这一创新使训练效率比前几代提高了约十倍。

这种突破性的进展不仅提升了模型的表现力，也重新定义了人工智能训练的标准。通过一系列精心设计的优化措施，我们成功地驾驭了超大规模模型的复杂性，使其在推理、编码以及多任务处理方面展现出卓越的能力。这项成果标志着我们在人工智能领域迈出了坚实的一步，也为未来更大规模的模型研发奠定了坚实的基础。

(以上内容均由Ai生成)