OpenAI 推出 o3 和 o4-mini，这是一种“用图像思考”并自主使用工具的 AI 模型

快速阅读: 据《VentureBeat 公司》最新报道，OpenAI推出两款新AI模型O3和O4-Mini，具备图像推理和工具使用能力，大幅提升AI解决问题的效率，适用于科研、教育和软件工程等领域。模型已在关键基准测试中表现优异，并加强了安全措施以防滥用。新模型将为用户提供更强智能和更高性价比，助力AI技术广泛应用。

订阅我们的每日和每周通讯，获取行业领先的AI报道的最新动态和独家内容。了解更多，开放人工智能（OpenAI）今日推出了两款开创性的AI模型，能够推理图像并独立使用工具，这代表着专家们所说的AI能力的一大步飞跃。这家位于旧金山的公司推出了O3和O4-Mini，这是其“O系列”推理模型的最新版本，该公司声称是迄今为止最智能、最强大的模型。这些系统可以直接将图像整合到其推理过程中，搜索网络、运行代码、分析文件，甚至在一个任务流中生成图像。

“有些模型感觉像是迈向未来的质的飞跃。GPT-4就是其中之一。今天也将是这样的一天，”OpenAI总裁格雷格·布罗克曼（Greg Brockman）在宣布发布时的新闻发布会上说道，“这些是第一批科学家告诉我们它们确实产生真正好的和有用创新想法的模型。”

**OpenAI的新模型如何通过“思考图像”来改变视觉问题解决**

这些新模型最引人注目的特性是它们能够“用图像思考”——不仅仅是看到它们，而是将它们作为解决问题过程的一部分进行操作和推理。“它们不只是看一张图片——它们用它来思考，”OpenAI在发送给VentureBeat的声明中表示。“这开启了一类新的问题解决方式，融合视觉和文本推理。”

在新闻发布会的演示环节，一位研究人员展示了O3如何分析十年前实习期间的物理海报，独立导航其复杂的图表，甚至识别出海报本身并没有最终结果。“它一定是在几秒钟内读了至少十篇不同的论文，”正在OpenAI从事多模态推理研究的研究员布兰登·麦肯齐（Brandon McKenzie）在演示期间说道。他估计这项任务将花费他“好几天的时间，仅仅是为了让我重新熟悉我的项目，然后再花几天时间，实际查阅文献。”

AI在推理过程中操纵图像的能力——放大细节、旋转图表或裁剪不必要的元素——代表一种新颖的方法，行业分析师表示这可能会彻底改变从科学研究到教育的各个领域。

**超越AI模型：O3和O4-Mini如何作为具有高级工具集成的完整AI系统运作**

OpenAI高管强调，这些发布不仅仅代表着改进的模型——它们是完整的AI系统，在解决问题时可以独立使用并链接多个工具。“我们已经通过强化学习训练它们使用工具——不仅教会它们如何使用工具，还教会它们何时使用工具，”公司在其公告中解释道。

格雷格·布罗克曼强调了这些模型广泛的工具使用能力：“当它们试图解决一个难题时，实际上在它们的思维链中使用了这些工具。例如，我们已经看到O3连续使用了600次工具调用来尝试解决一个非常困难的任务。”

这种能力允许模型在没有持续人类指导的情况下执行复杂的多步骤工作流程。例如，如果被问及加利福尼亚州未来的能源使用模式，AI可以在网上搜索公用事业数据，编写Python代码进行分析，生成可视化图表，并撰写全面的报告——所有这些都是作为一个流畅的整体过程。

**OpenAI在关键AI基准测试中以创纪录的表现领先竞争对手**

OpenAI声称O3在衡量AI能力的关键指标上设置了新的最先进的基准，包括Codeforces、SWE-bench和MMMU。在外部专家的评估中，据报道O3在困难的实际任务中比其前身减少了20%的重大错误。较小的O4-Mini模型在保持强大推理能力的同时优化了速度和成本效率。在2025年AIME数学竞赛中，O4-Mini在获得Python解释器访问权限后获得了99.5%的分数。

“我真的相信，有了这一套模型，O3和O4-Mini，我们将看到更多的进步，”OpenAI研究主管马克·陈（Mark Chen）在新闻发布会上说道。这次发布的时机非常重要，就在两天前OpenAI推出了其GPT-4.1模型，该模型在编码任务方面表现出色。这些公告的快速相继发布标志着竞争激烈的AI领域的加速发展，其中OpenAI面临着来自Google的Gemini模型、Anthropic的Claude以及埃隆·马斯克的xAI越来越大的压力。上个月，OpenAI完成了历史上最大的私人技术融资轮次，筹集了40亿美元，估值为3000亿美元。该公司还据说正在考虑建立自己的社交网络，可能与埃隆·马斯克的X平台竞争，并确保获得专有的训练数据来源。

**OpenAI的新模型如何通过前所未有的代码导航能力改变软件工程**

新模型特别擅长的一个领域是软件工程。布罗克曼在新闻发布会上指出，O3“实际上比我更擅长浏览我们的OpenAI代码库，这非常有用。”

**OpenAI的新模型如何通过前所未有的代码导航能力改变软件工程**

作为公告的一部分，OpenAI还推出了Codex CLI，这是一个轻量级的编码代理，可以直接在用户的终端中运行。这个开源工具允许开发人员利用模型的推理能力进行编码任务，支持截图和草图。

“我们还在分享一个新的实验：Codex CLI，一个可以从终端运行的轻量级编码代理，”公司宣布。“您可以通过传递截图或低保真度草图到模型中，结合本地代码访问，从命令行获得多模态推理的好处。”

为了鼓励采用，OpenAI启动了一项100万美元的计划，支持使用Codex CLI和OpenAI模型的项目，API信用额度以25,000美元的增量提供。

**OpenAI增强的安全协议内部：公司如何保护免受AI滥用**

OpenAI报告称对新模型进行了广泛的安全测试，特别是关注其拒绝有害请求的能力。公司的安全措施包括完全重建其安全训练数据和发展系统级缓解措施以标记危险提示。

“我们用我们最严格的安全部署对这两个模型进行了压力测试，”公司表示，指出O3和O4-Mini在生物、网络安全和AI自我提升能力方面的潜在风险仍低于OpenAI设定的“高”风险阈值。

在新闻发布会上，OpenAI研究人员温达和阿南亚展示了详细的基准结果，指出新模型经历了超过前一版本10倍的训练计算才能达到其能力。

**何时以及如何访问O3和O4-Mini：部署时间表和商业策略**

新模型立即可供ChatGPT Plus、Pro和ProTeam用户使用，下周将向Enterprise和Education客户开放。免费用户可以通过在提交查询之前在作曲家中选择“思考”来试用O4-Mini。开发人员可以通过OpenAI的聊天完成API和响应API访问这两个模型，但一些组织需要验证才能访问它们。

此次发布对OpenAI来说是一个重要的商业机会，因为这些模型看起来比其前辈更强大且更具成本效益。“例如，在2025年的AIME数学竞赛中，O3的成本效益前沿严格优于O1，同样，O4-Mini的成本效益前沿严格优于O3-Mini，”公司表示。

**AI的未来：OpenAI如何为下一代系统融合推理和对话**

行业分析师认为这些发布是AI能力更广泛融合的一部分，模型越来越多地结合了专门推理能力和自然对话能力以及工具使用。“今天的更新反映了我们的模型的发展方向：我们正在将O系列的专门推理能力与GPT系列更多的自然对话能力和工具使用相结合，”OpenAI在其公告中指出。

沃顿商学院副教授、研究AI采用的伊森·莫利克（Ethan Mollick）在公告后的一条社交媒体帖子中描述O3为“一个非常强大的模型，但仍然有些不均衡”。

随着谷歌、Anthropic等其他公司在AI领域不断推出越来越强大的模型，竞争日益激烈，OpenAI专注于推理能力和实用工具使用双重策略表明了一种旨在通过提供智能和实用性维持领导地位的战略。通过O3和O4-Mini，OpenAI已经跨越了一个门槛，机器开始像人类一样感知图像——将视觉信息作为其思维过程的组成部分，而不仅仅是分析它们所看到的内容。这种从被动识别到主动视觉推理的转变可能比任何基准分数更重要，标志着AI开始真正通过思考的眼睛看待世界。

**VB每日商业用例洞察**

如果你想给老板留下深刻印象，VB每日可以帮你实现。我们为你提供公司如何应用生成式AI的内幕消息，从监管变化到实际部署，以便你可以分享见解以获得最大回报。现在订阅阅读我们的隐私政策感谢订阅。查看更多VB新闻简报。发生错误。

(以上内容均由Ai生成)