Meta 出人意料的 Llama 4 下降暴露了 AI 野心与现实之间的差距
快速阅读: 据《Ars Technica》最新报道,Meta宣称其Llama 4系列中的Maverick在多项基准测试中优于GPT-4和Gemini 2.0,但其性能尚待独立验证。尽管Llama 4引发热议,包括对其多模态功能和参数量的批评,但有人期待未来版本能在移动端有更好的表现。
Meta宣称其全新Llama 4系列中的大型模型Maverick,在多种技术基准测试中表现出色,超越了OpenAI的GPT-4和Google的Gemini 2.0等竞争对手。不过,这些基准测试往往无法全面反映普通用户的实际体验。截至目前,尚未有独立机构完全验证其性能声明。更引人注意的是,Llama 4的一个版本目前位居热门Chatbot Arena LLM排行榜第二。然而,即便如此,仍存在一个值得注意的问题:Willison观察到Meta公告中提及的不同之处——高排名条目指的是在LMArena获得1417分的实验性聊天版本,这与可下载的Maverick模型并不相同。
Llama 4的发布引发社交媒体上关于AI发展趋势的热烈讨论,反响中既有对多模态功能不足的轻微失望,也有对其专家混合架构仅使用了170亿激活参数的担忧,还有对其发布显得仓促或内部管理混乱的批评。部分Reddit用户指出,Llama 4的表现与创新竞争对手DeepSeek和Qwen相比略显平淡,特别是在编码任务和软件开发基准测试中的表现令人失望。X平台上研究者安德里·布尔科夫(Andriy Burkov),著有《语言模型百页书》,认为Llama 4令人失望的发布进一步加深了对单一基础模型的质疑。他表示:“近期令人失望的GPT-4.5和Llama 4发布表明,若不通过强化学习训练模型进行推理,单纯扩大模型规模已无明显益处。”布尔科夫提到的GPT-4.5同样显示出某些问题;Ars Technica之前报道过,GPT-4.5虽然评价不一,但其高昂的成本和性能局限表明,单纯扩大传统AI模型架构可能是一个潜在的死胡同。这一观点与AI领域关于单纯依赖扩大基础模型规模而未引入新技术(例如模拟推理或训练专用小模型)存在规模限制的广泛讨论相一致。
尽管Meta的新模型家族存在诸多不足,但Willison依然持乐观态度,认为未来的Llama 4发布会更有价值。“我希望看到一系列不同规模的Llama 4模型,延续Llama 3的模式,”他在博客中写道。“我特别期待看到他们能否推出一个改进版约30亿参数的模型,能够在我的手机上流畅运行。”
这段文字经过精心润色后,语句更加生动,结构更加清晰,内容更具逻辑性和吸引力。
(以上内容均由Ai生成)