在 DeepSeek 上投入足够的 GPU，您将获得 Grok 3

快速阅读: 据《印度分析杂志》最新报道，马斯克的xAI公司发布了最新大型语言模型Grok 3，展示其在多项测试中超越Google Gemini 2 Pro等竞品的表现。Grok 3在10万和20万台GPU上分别训练了122天和92天，具备强大的推理能力。xAI计划在未来几个月内开源Grok 2。Grok 3将首先面向X平台的Premium Plus订阅者开放，并支持语音模式和深度搜索功能。

马斯克的xAI公司在周二发布了其最新的大型语言模型Grok 3。在一场线上直播活动中，该公司展示了Grok 3“令人印象深刻”的性能，并暗示未来的人工智能不仅能理解宇宙，还能帮助我们理解它。“如果一切顺利，SpaceX将在两年内用Optimus机器人和Grok发送Starship火箭到火星，”马斯克说。Grok的名字源自罗伯特·海因莱因的作品《异乡异客》，象征着对某个事物的深刻理解。独立测试表明，Grok 3在AIME、GPQA和LCB等测试中超越了Google Gemini 2 Pro、DeepSeek V3、Claude 3.5 Sonnet和GPT-4。

Grok成功的背后是xAI增加了计算资源以提升Grok 3的性能。该模型分为两个阶段开发：首先，在10万台GPU上同步训练了122天，随后扩展到20万台GPU，历时92天。“我们花了122天让前10万台GPU运行起来，这是一项巨大的努力。我们认为这是同类中最大的全连接H100集群之一。但我们并未止步于此，决定将集群规模扩大一倍至20万台，”xAI联合创始人伊戈尔·巴布什金表示。

与OpenAI的o3 mini和DeepSeek R1类似，Grok-3也具备先进的推理能力。xAI代表表示，通过采用最佳预训练模型并使用强化学习继续训练，模型将发展出额外的推理能力，从而显著提高训练和测试性能。这些推理模型可通过Grok应用访问，用户可以提示Grok 3进行“思考”，或激活“大脑模式”以利用额外的计算能力进行更深层次的推理。据xAI称，该模型特别适合解决数学、科学和编程方面的问题。该模型在OpenAI o3 mini（高端）、DeepSeek-R1和Google Gemini 2 Flash Thinking模型之上。

然而，一些业内人士认为这并不算重大突破。HubSpot创始人兼CTO德赫梅什·沙阿指出，它更像是DeepSeek，但计算能力更强。他表示期待尝试即将在未来几周发布的API。与此同时，前OpenAI研究员、Eureka Labs创始人安德烈·卡帕西在早期接触Grok 3后进行了测试并分享了他的见解。据他所述，该模型的能力大致处于OpenAI最强模型（o1-pro，每月200美元）的水平，略优于DeepSeek-R1和Gemini 2.0 Flash Thinking。他进一步补充道，考虑到团队大约一年前从零开始，这是一项了不起的成就。“达到这一水平的时间尺度是前所未有的，”卡帕西在X平台上的一篇帖子中写道。

咨询公司Semianalysis报告称，DeepSeek拥有约5万台NVIDIA GPU，包括1万台H800 GPU、1万台H100 GPU和大量H20 GPU。如果他们能够扩展到20万台GPU，将会非常有趣。在DeepSeek-R1发布之前，AI研究实验室推出了DeepSeek V3，据公司称，该模型在仅557.6万美元预算下，使用2048台NVIDIA H800 GPU进行训练。半导体分析公司Semi Analysis创始人戴伦·帕特尔表示，DeepSeek很可能“正在耗尽资金”。他说：“DeepSeek没有任何能力真正提供模型。”

xAI的Colossus超级计算机Grok 3模型及其聊天功能、深度搜索和高级推理功能将首先向X平台的Premium Plus订阅者开放。对于寻求最先进功能和新功能早期访问的用户，xAI将通过专门的Grok应用和网站grok.com提供这些服务。xAI分享说，Grok在年初完成了预训练，并表示其早期版本的Grok 3（代号为“巧克力”）在LMSYS Arena中取得了领先地位，成为第一个打破1400分障碍的模型。“Grok-3已经达到了1400分；没有其他模型达到这么高的ELO分数，”马斯克补充说，分数是在聊天机器人功能、指令执行和编码的所有类别中综合得出的。

现场演示展示了Grok的推理和创造性解决问题的能力。其中一个挑战涉及生成火星任务的动画3D图代码。此外，Grok-3还通过混合两种游戏创造了一款新游戏。“我们看到了Grok 3创造力的开端，”马斯克说。“如果你要求AI创建一个像俄罗斯方块或宝石迷阵这样的游戏，互联网上有许多例子可供复制，”他补充说，有趣的是，它实现了结合两种游戏的创意解决方案——这个方案实际可行且是一款好游戏。“Grok 3可能是现实物理世界中最好的基础LLM！”Hyperbolic Labs的联合创始人兼CTO余晨进表示，他使用它创建了一个Python脚本，模拟球在一个旋转的四维超立方体内的弹跳。深度搜索功能

该公司还推出了DeepSearch功能，允许用户提出复杂问题并获得全面答案，节省无数小时的研究时间。“它不仅帮助工程师和科研人员进行编码，还帮助每个人回答日常问题。就像下一代搜索引擎，真正帮助你理解工具，”团队表示。

有趣的是，这似乎受到了OpenAI、谷歌和Perplexity AI最新功能Deep Research的启发，这三个公司都采用了这个名字。其演示包括关于Starship发射、Path of Exile中的热门构建以及三月疯狂赛事预测的问题。“我对DeepSearch的印象是，它大约相当于Perplexity的Deep Research产品（这很棒！），但尚未达到OpenAI最近发布的Deep Research的水平，后者仍然感觉更全面和可靠，”卡帕西表示。

OpenAI会反击吗？

此外，马斯克分享说，Grok应用将在大约一周内引入新的“语音模式”，使Grok模型能够拥有合成语音。几周后，Grok 3模型将通过xAI的企业API与DeepSearch功能一起提供。Grok 3发布时，Grok iOS也进行了更新，新增了“SuperGrok”等资产。Grok Pro每月30美元或每年300美元，包含新的语音和思考模式资产。

此外，xAI计划在未来几个月内开源Grok 2。“我们的通用方法是，当下一个版本完全发布时，我们将开源最后一个版本[Grok]，”他说。“当Grok 3成熟稳定，可能在几个月内，我们将开源Grok 2。”

值得注意的是，OpenAI也在考虑一些开源项目。OpenAI首席执行官萨姆·奥特曼在X平台上询问用户：“对于我们的下一个开源项目，创建一个虽然需要GPU但仍较小的o3-mini级模型更有用，还是我们能开发的最佳手机大小模型？”他还宣布了即将推出的GPT-4.5和GPT-5模型的路线图。“尝试GPT-4.5在高品位测试者中带来的‘感受AGI’时刻比我预期的要多得多！”他在X平台上写道。

与此同时，Anthropic正准备推出其下一个推理模型，这是一个混合AI，将更多计算能力分配给复杂查询，同时高效处理简单任务。

(以上内容均由Ai生成)