OpenAI 的新 AI 模型 o3 和 o4-mini 现在可以“用图像思考”

发布时间：2025年4月19日来源：szf

快速阅读: 据《科技共和国》称，OpenAI发布两款新AI模型O3和O4-Mini，具备“用图像思考”能力，能像人类一样处理图像，融合视觉与语言推理，在多项基准测试中表现优异，但仍有过度操作和误解内容等问题。目前面向部分用户开放，后续扩展至更多用户群体。

OpenAI首席执行官山姆·阿尔特曼。图片来源：知识共享

OpenAI发布了两款全新的人工智能模型O3和O4-Mini，这两款模型能够真正实现“用图像思考”的能力，标志着机器理解图像方式的重大进步。根据OpenAI的新闻稿，这些模型在处理图像时与处理文本的方式相同——在内部思维过程中会对照片进行裁剪、缩放和旋转。

这一升级的核心能力在于视觉与语言推理的融合。
“OpenAI的O3和O4-Mini通过在思维链中使用图像实现了视觉感知的重要突破，”公司在其新闻稿中提到。与之前的版本不同，这些模型不再依赖独立的视觉系统，而是原生地整合了图像工具和文本工具，从而提供了更为丰富和准确的答案。

这些模型能够在思维过程中像人类一样对图像进行裁剪、缩放、旋转或翻转。它们不仅仅是识别照片中的内容，而是通过与图像互动得出结论。
公司指出，“ChatGPT增强的视觉智能帮助您通过更全面、更精确、更可靠的方式分析图像，从而解决更为复杂的问题。”

这意味着，如果您上传一张手写数学题的照片、模糊的标志或复杂的图表，模型不仅能够理解它，还能逐步分解它——甚至可能比之前的表现更好。

这些新能力不仅在理论上令人瞩目；OpenAI表示，这两个模型在顶级学术和AI基准测试中均优于其前辈。
“我们的模型在STEM问答（MMMU、MathVista）、图表阅读与推理（CharXiv）、感知基础（VLMs are Blind）以及视觉搜索（V*）等方面创造了新的最先进性能，”公司在一份声明中提到。“在V*基准测试上，我们的视觉推理方法达到了95.7%的准确率，很大程度上解决了这一挑战。”

然而，这些模型并非完美无缺。OpenAI承认，这些模型有时会过度思考，导致冗长且不必要的图像操作。此外，在某些情况下，尽管正确使用工具分析图像，AI可能会误解所见内容。公司还警告了在多次尝试同一任务时可能出现的可靠性问题。

截至4月16日，O3和O4-Mini已向ChatGPT Plus、Pro和Team用户开放；它们替代了旧模型如O1和O3-Mini。企业及教育用户将在下周获得访问权限，免费用户则可通过新的“思考”功能尝试O4-Mini。

订阅创新内幕通讯

了解正在改变世界的最新技术革新，包括物联网、5G、手机最新动态、安全、智慧城市、人工智能、机器人等领域。每周二和周五发送

电子邮件地址

通过注册接收我们的新闻通讯，您同意我们的使用条款和隐私政策。您可以随时取消订阅。

订阅创新内幕通讯

了解正在改变世界的最新技术革新，包括物联网、5G、手机最新动态、安全、智慧城市、人工智能、机器人等领域。每周二和周五发送

电子邮件地址

通过注册接收我们的新闻通讯，您同意我们的使用条款和隐私政策。您可以随时取消订阅。

(以上内容均由Ai生成)