Meta 出人意料的 Llama 4 下降暴露了 AI 野心与现实之间的差距

发布时间：2025年4月8日来源：szf

快速阅读: 据《Ars Technica》最新报道，Meta宣称其Llama 4系列中的Maverick在多项基准测试中优于GPT-4和Gemini 2.0，但其性能尚待独立验证。尽管Llama 4引发热议，包括对其多模态功能和参数量的批评，但有人期待未来版本能在移动端有更好的表现。

Meta宣称其全新Llama 4系列中的大型模型Maverick，在多种技术基准测试中表现出色，超越了OpenAI的GPT-4和Google的Gemini 2.0等竞争对手。不过，这些基准测试往往无法全面反映普通用户的实际体验。截至目前，尚未有独立机构完全验证其性能声明。更引人注意的是，Llama 4的一个版本目前位居热门Chatbot Arena LLM排行榜第二。然而，即便如此，仍存在一个值得注意的问题：Willison观察到Meta公告中提及的不同之处——高排名条目指的是在LMArena获得1417分的实验性聊天版本，这与可下载的Maverick模型并不相同。

Llama 4的发布引发社交媒体上关于AI发展趋势的热烈讨论，反响中既有对多模态功能不足的轻微失望，也有对其专家混合架构仅使用了170亿激活参数的担忧，还有对其发布显得仓促或内部管理混乱的批评。部分Reddit用户指出，Llama 4的表现与创新竞争对手DeepSeek和Qwen相比略显平淡，特别是在编码任务和软件开发基准测试中的表现令人失望。X平台上研究者安德里·布尔科夫（Andriy Burkov），著有《语言模型百页书》，认为Llama 4令人失望的发布进一步加深了对单一基础模型的质疑。他表示：“近期令人失望的GPT-4.5和Llama 4发布表明，若不通过强化学习训练模型进行推理，单纯扩大模型规模已无明显益处。”布尔科夫提到的GPT-4.5同样显示出某些问题；Ars Technica之前报道过，GPT-4.5虽然评价不一，但其高昂的成本和性能局限表明，单纯扩大传统AI模型架构可能是一个潜在的死胡同。这一观点与AI领域关于单纯依赖扩大基础模型规模而未引入新技术（例如模拟推理或训练专用小模型）存在规模限制的广泛讨论相一致。

尽管Meta的新模型家族存在诸多不足，但Willison依然持乐观态度，认为未来的Llama 4发布会更有价值。“我希望看到一系列不同规模的Llama 4模型，延续Llama 3的模式，”他在博客中写道。“我特别期待看到他们能否推出一个改进版约30亿参数的模型，能够在我的手机上流畅运行。”

这段文字经过精心润色后，语句更加生动，结构更加清晰，内容更具逻辑性和吸引力。

(以上内容均由Ai生成)