在 DeepSeek 上投入足够的 GPU,您将获得 Grok 3
快速阅读: 据《印度分析杂志》最新报道,马斯克的xAI公司发布了最新大型语言模型Grok 3,展示其在多项测试中超越Google Gemini 2 Pro等竞品的表现。Grok 3在10万和20万台GPU上分别训练了122天和92天,具备强大的推理能力。xAI计划在未来几个月内开源Grok 2。Grok 3将首先面向X平台的Premium Plus订阅者开放,并支持语音模式和深度搜索功能。
马斯克的xAI公司在周二发布了其最新的大型语言模型Grok 3。在一场线上直播活动中,该公司展示了Grok 3“令人印象深刻”的性能,并暗示未来的人工智能不仅能理解宇宙,还能帮助我们理解它。“如果一切顺利,SpaceX将在两年内用Optimus机器人和Grok发送Starship火箭到火星,”马斯克说。Grok的名字源自罗伯特·海因莱因的作品《异乡异客》,象征着对某个事物的深刻理解。独立测试表明,Grok 3在AIME、GPQA和LCB等测试中超越了Google Gemini 2 Pro、DeepSeek V3、Claude 3.5 Sonnet和GPT-4。
Grok成功的背后是xAI增加了计算资源以提升Grok 3的性能。该模型分为两个阶段开发:首先,在10万台GPU上同步训练了122天,随后扩展到20万台GPU,历时92天。“我们花了122天让前10万台GPU运行起来,这是一项巨大的努力。我们认为这是同类中最大的全连接H100集群之一。但我们并未止步于此,决定将集群规模扩大一倍至20万台,”xAI联合创始人伊戈尔·巴布什金表示。
与OpenAI的o3 mini和DeepSeek R1类似,Grok-3也具备先进的推理能力。xAI代表表示,通过采用最佳预训练模型并使用强化学习继续训练,模型将发展出额外的推理能力,从而显著提高训练和测试性能。这些推理模型可通过Grok应用访问,用户可以提示Grok 3进行“思考”,或激活“大脑模式”以利用额外的计算能力进行更深层次的推理。据xAI称,该模型特别适合解决数学、科学和编程方面的问题。该模型在OpenAI o3 mini(高端)、DeepSeek-R1和Google Gemini 2 Flash Thinking模型之上。
然而,一些业内人士认为这并不算重大突破。HubSpot创始人兼CTO德赫梅什·沙阿指出,它更像是DeepSeek,但计算能力更强。他表示期待尝试即将在未来几周发布的API。与此同时,前OpenAI研究员、Eureka Labs创始人安德烈·卡帕西在早期接触Grok 3后进行了测试并分享了他的见解。据他所述,该模型的能力大致处于OpenAI最强模型(o1-pro,每月200美元)的水平,略优于DeepSeek-R1和Gemini 2.0 Flash Thinking。他进一步补充道,考虑到团队大约一年前从零开始,这是一项了不起的成就。“达到这一水平的时间尺度是前所未有的,”卡帕西在X平台上的一篇帖子中写道。
咨询公司Semianalysis报告称,DeepSeek拥有约5万台NVIDIA GPU,包括1万台H800 GPU、1万台H100 GPU和大量H20 GPU。如果他们能够扩展到20万台GPU,将会非常有趣。在DeepSeek-R1发布之前,AI研究实验室推出了DeepSeek V3,据公司称,该模型在仅557.6万美元预算下,使用2048台NVIDIA H800 GPU进行训练。半导体分析公司Semi Analysis创始人戴伦·帕特尔表示,DeepSeek很可能“正在耗尽资金”。他说:“DeepSeek没有任何能力真正提供模型。”
xAI的Colossus超级计算机Grok 3模型及其聊天功能、深度搜索和高级推理功能将首先向X平台的Premium Plus订阅者开放。对于寻求最先进功能和新功能早期访问的用户,xAI将通过专门的Grok应用和网站grok.com提供这些服务。xAI分享说,Grok在年初完成了预训练,并表示其早期版本的Grok 3(代号为“巧克力”)在LMSYS Arena中取得了领先地位,成为第一个打破1400分障碍的模型。“Grok-3已经达到了1400分;没有其他模型达到这么高的ELO分数,”马斯克补充说,分数是在聊天机器人功能、指令执行和编码的所有类别中综合得出的。
现场演示展示了Grok的推理和创造性解决问题的能力。其中一个挑战涉及生成火星任务的动画3D图代码。此外,Grok-3还通过混合两种游戏创造了一款新游戏。“我们看到了Grok 3创造力的开端,”马斯克说。“如果你要求AI创建一个像俄罗斯方块或宝石迷阵这样的游戏,互联网上有许多例子可供复制,”他补充说,有趣的是,它实现了结合两种游戏的创意解决方案——这个方案实际可行且是一款好游戏。“Grok 3可能是现实物理世界中最好的基础LLM!”Hyperbolic Labs的联合创始人兼CTO余晨进表示,他使用它创建了一个Python脚本,模拟球在一个旋转的四维超立方体内的弹跳。深度搜索功能
该公司还推出了DeepSearch功能,允许用户提出复杂问题并获得全面答案,节省无数小时的研究时间。“它不仅帮助工程师和科研人员进行编码,还帮助每个人回答日常问题。就像下一代搜索引擎,真正帮助你理解工具,”团队表示。
有趣的是,这似乎受到了OpenAI、谷歌和Perplexity AI最新功能Deep Research的启发,这三个公司都采用了这个名字。其演示包括关于Starship发射、Path of Exile中的热门构建以及三月疯狂赛事预测的问题。“我对DeepSearch的印象是,它大约相当于Perplexity的Deep Research产品(这很棒!),但尚未达到OpenAI最近发布的Deep Research的水平,后者仍然感觉更全面和可靠,”卡帕西表示。
OpenAI会反击吗?
此外,马斯克分享说,Grok应用将在大约一周内引入新的“语音模式”,使Grok模型能够拥有合成语音。几周后,Grok 3模型将通过xAI的企业API与DeepSearch功能一起提供。Grok 3发布时,Grok iOS也进行了更新,新增了“SuperGrok”等资产。Grok Pro每月30美元或每年300美元,包含新的语音和思考模式资产。
此外,xAI计划在未来几个月内开源Grok 2。“我们的通用方法是,当下一个版本完全发布时,我们将开源最后一个版本[Grok],”他说。“当Grok 3成熟稳定,可能在几个月内,我们将开源Grok 2。”
值得注意的是,OpenAI也在考虑一些开源项目。OpenAI首席执行官萨姆·奥特曼在X平台上询问用户:“对于我们的下一个开源项目,创建一个虽然需要GPU但仍较小的o3-mini级模型更有用,还是我们能开发的最佳手机大小模型?”他还宣布了即将推出的GPT-4.5和GPT-5模型的路线图。“尝试GPT-4.5在高品位测试者中带来的‘感受AGI’时刻比我预期的要多得多!”他在X平台上写道。
与此同时,Anthropic正准备推出其下一个推理模型,这是一个混合AI,将更多计算能力分配给复杂查询,同时高效处理简单任务。
(以上内容均由Ai生成)