Meta 的 Llama 4 跨越极端：从 15k 页分析（Scout）到 2T 参数预览（Behemoth）

快速阅读: 据《药物发现与开发》称，Meta今日推出Llama 4系列AI模型，包括探路者（上下文长度达1000万标记）和反叛者（参数效率高）。CEO扎克伯格强调开源和普及AI目标，新模型提升开放AI标准，推动领域创新。

在元宇宙（Meta）首席执行官马克·扎克伯格所称的“重大升级”中，元宇宙今日推出了其Llama 4系列的人工智能模型，展示了覆盖广泛领域的多种模型。扎克伯格以明确的目标阐述了此次发布：“我们的目标是构建世界领先的AI，开源它，并使其普遍可用，以便全世界的人都能受益。”

一方面是有公开可用的Llama 4探路者（Scout），它拥有扎克伯格所说的“行业领先的‘近乎无限’的1000万标记上下文长度”，能够一次性分析相当于15,000页的内容。相比之下，OpenAI的GPT-4o的上下文窗口为128,000个标记。一个推理模型正在开发中。“Llama 4推理模型正在作为专注于增强逻辑能力和问题解决能力的专用模型进行开发，”扎克伯格说。

元宇宙还预览了接近2万亿参数的Llama 4巨兽（Behemoth），定位为最先进的“教师”模型。扎克伯格对此巨大模型进行了预告，表示：“这个模型非常庞大——超过2万亿参数。我不清楚是否有任何人训练过更大的模型。它已经是世界上性能最高的基础模型之一，而且它甚至还没有完成训练。”

虽然元宇宙自己的声明强调了对其竞争对手如GPT-4o有利但有时选择性的比较，独立验证迅速出现：另一个关键的开放模型Llama 4反叛者（Maverick）已经在Hugging Face聊天机器人竞技场排行榜上位居第二。扎克伯格之前曾表示，“开源AI将产生领先模型，而Llama 4正在开始实现这一点。”

元宇宙通过其“iRoPE架构”实现了上下文窗口的突破，特别是在探路者（Scout）中。这种方法使用交错注意力层而不使用位置嵌入，并采用推理时间温度缩放注意力来增强长度泛化。“i”在iRoPE中代表“交错”注意力层，反映了元宇宙向支持潜在“无限”上下文长度的长期目标迈进——与扎克伯格对探路者“近乎无限、1000万标记上下文长度”的描述相一致。

通过专家混合实现参数效率
两个发布的Llama 4模型都采用了专家混合（MoE）方法，这是实现高性能和计算效率的关键策略。例如，Llama 4反叛者（Maverick）每个标记使用170亿活跃参数，但从中抽取来自总共4000亿参数的庞大池子，分布在128个专家和一个共享专家中。正如扎克伯格对于反叛者所指出的：“这是一个有128个专家的170亿参数模型。”在这种架构中，每个标记仅激活总参数的一小部分，与具有相似总大小的密集模型相比，提高了推理效率并降低了延迟，正如公司在公告中所述。

反叛者与探路者：不同的设计理念
反叛者在排行榜上的高排名反映了元宇宙将其定位为主流开放模型的旗舰产品，设计为一种强大的全能型模型，可与顶级专有系统竞争。扎克伯格称其为“工作马”，并声称：“它在所有基准测试中击败了GPT-4o和Gemini 2.0 Flash。”他补充了具体的技术细节：“它比DeepSeek V3更小、更高效，但在文本方面仍然相当。尽管通过其128专家的MoE设计每标记仅激活170亿参数（总计4000亿），Meta声称反叛者在一系列编码、推理和多语言基准测试中表现优于主要竞争对手。它支持仍然庞大的100万个标记上下文窗口，并且像探路者一样，“原生多模态”，能够处理多达八张图片以及文本以进行复杂的视觉语言任务。扎克伯格强调了其部署的简便性：“设计为可以在单个主机上运行以方便推理。这东西是一个怪物。”

与此同时，探路者优先考虑极端上下文和效率。其16专家的MoE结构（17B活跃/109B总），由扎克伯格详细说明为“170亿参数和16个专家”，结合iRoPE架构允许它处理其行业首创的10M标记上下文。扎克伯格强调了其速度和可访问性：“它非常快……并且设计为可以在单个GPU上运行。”这使得它非常适合在有限硬件上处理大量文档或代码库。他总结道探路者是“同类中性能最高的小型模型”。

通过早期融合实现原生多模态
Llama 4系列的一个核心架构差异化因素是其原生多模态，通过“早期融合”策略实现。这与扎克伯格对探路者和反叛者的描述相一致，即“原生多模态”。这种方法从一开始就将文本和视觉处理集成到统一的主干中。因此，它与那些主要针对文本训练的模型附加视觉能力的方法形成对比。通过在多样化数据集（包括文本、图像以及显著的视频帧）上进行联合预训练，元宇宙旨在实现更根本的跨模态理解。该架构包含优化的视觉编码器，源自MetaCLIP技术，据称专门针对与语言模型组件的交互进行调整。功能上，这转化为演示的能力，例如处理多个并发图像（最多八张有效测试）和复杂的图像定位，在探路者中，它将文本查询精确链接到视觉区域。从视频帧解释时间序列的能力进一步强调了这种集成方法的潜在深度。这标志着从先前Llama世代的战略架构转变，可能简化模型开发并实现比松散耦合的视觉-文本系统更精细的多模态应用。

为开放模型树立标杆
通过Llama 4系列，元宇宙显著提升了开放获取AI模型的标准，提供了前所未有的上下文长度、通过高效架构实现的竞争性性能以及稳健的多模态能力。扎克伯格总结了这一成就：“总体而言，Llama 4是元宇宙AI和开源的一个里程碑。第一次，最好的小型、中型模型，甚至很快将是前沿模型都将开源。”

虽然巨兽（Behemoth）目前仍然是内部基准，另一款“Llama 4推理”模型预计下个月推出，但强大的反叛者和超长上下文探路者为开发者提供了令人兴奋的新工具。正如扎克伯格所总结的：“还有很多要做，但这里的轨迹是明确的。我们即将推出更多模型，所以请保持关注。”

这些发布有望加速整个AI领域的创新。想要与新功能互动的用户可以立即这样做，正如扎克伯格指出的：“如果你想尝试Llama 4，你可以通过WhatsApp、Messenger或Instagram私信使用Meta AI，或者你可以访问我们的网站meta.ai。”

(以上内容均由Ai生成)