OpenAI 的新 AI 模型 o3 和 o4-mini 现在可以“用图像思考”
快速阅读: 据《科技共和国》称,OpenAI发布两款新AI模型O3和O4-Mini,具备“用图像思考”能力,能像人类一样处理图像,融合视觉与语言推理,在多项基准测试中表现优异,但仍有过度操作和误解内容等问题。目前面向部分用户开放,后续扩展至更多用户群体。
OpenAI首席执行官山姆·阿尔特曼。图片来源:知识共享
OpenAI发布了两款全新的人工智能模型O3和O4-Mini,这两款模型能够真正实现“用图像思考”的能力,标志着机器理解图像方式的重大进步。根据OpenAI的新闻稿,这些模型在处理图像时与处理文本的方式相同——在内部思维过程中会对照片进行裁剪、缩放和旋转。
这一升级的核心能力在于视觉与语言推理的融合。
“OpenAI的O3和O4-Mini通过在思维链中使用图像实现了视觉感知的重要突破,”公司在其新闻稿中提到。与之前的版本不同,这些模型不再依赖独立的视觉系统,而是原生地整合了图像工具和文本工具,从而提供了更为丰富和准确的答案。
这些模型能够在思维过程中像人类一样对图像进行裁剪、缩放、旋转或翻转。它们不仅仅是识别照片中的内容,而是通过与图像互动得出结论。
公司指出,“ChatGPT增强的视觉智能帮助您通过更全面、更精确、更可靠的方式分析图像,从而解决更为复杂的问题。”
这意味着,如果您上传一张手写数学题的照片、模糊的标志或复杂的图表,模型不仅能够理解它,还能逐步分解它——甚至可能比之前的表现更好。
这些新能力不仅在理论上令人瞩目;OpenAI表示,这两个模型在顶级学术和AI基准测试中均优于其前辈。
“我们的模型在STEM问答(MMMU、MathVista)、图表阅读与推理(CharXiv)、感知基础(VLMs are Blind)以及视觉搜索(V*)等方面创造了新的最先进性能,”公司在一份声明中提到。“在V*基准测试上,我们的视觉推理方法达到了95.7%的准确率,很大程度上解决了这一挑战。”
然而,这些模型并非完美无缺。OpenAI承认,这些模型有时会过度思考,导致冗长且不必要的图像操作。此外,在某些情况下,尽管正确使用工具分析图像,AI可能会误解所见内容。公司还警告了在多次尝试同一任务时可能出现的可靠性问题。
截至4月16日,O3和O4-Mini已向ChatGPT Plus、Pro和Team用户开放;它们替代了旧模型如O1和O3-Mini。企业及教育用户将在下周获得访问权限,免费用户则可通过新的“思考”功能尝试O4-Mini。
订阅创新内幕通讯
了解正在改变世界的最新技术革新,包括物联网、5G、手机最新动态、安全、智慧城市、人工智能、机器人等领域。每周二和周五发送
电子邮件地址
通过注册接收我们的新闻通讯,您同意我们的使用条款和隐私政策。您可以随时取消订阅。
订阅
订阅创新内幕通讯
了解正在改变世界的最新技术革新,包括物联网、5G、手机最新动态、安全、智慧城市、人工智能、机器人等领域。每周二和周五发送
电子邮件地址
通过注册接收我们的新闻通讯,您同意我们的使用条款和隐私政策。您可以随时取消订阅。
(以上内容均由Ai生成)