OpenAI 宣布推出 o3 和 o4-mini,这是其最强大的模型,具有最先进的推理能力
快速阅读: 据《Neowin.net》最新报道,开放人工智能发布新款推理模型O3和O4-mini,支持外部工具访问,显著提升推理能力。O3在多基准测试中达SOTA,O4-mini高效且具竞争力。两模型优化对话自然性并增强安全性。同时推出Codex CLI及支持计划,新模型逐步开放给不同用户群。
正如预期,开放人工智能(OpenAI)今日宣布了其最新推出的推理模型O3和O3-mini模型,在多项AI基准测试中取得了最先进的(SOTA)成果。首次,这些推理模型能够访问外部工具,包括网页浏览、Python解释器等功能。开放人工智能强调,这些新模型经过训练,能够推理何时以及如何使用工具,从而生成详细且符合正确输出格式的回复。凭借最先进的推理能力和全面的工具访问权限,用户可以期待比以往任何开放人工智能模型都更能有效地响应查询。
O3是该公司目前最强大的推理模型,在Codeforces、SWE-bench和MMMU上设定了新的SOTA基准。由于支持图像上传,用户可以利用它来分析图像、图表和图形。据外部专家表示,在复杂的实际任务中,O3相比O1减少了20%的重大错误。O4-mini是一款较小的模型,旨在快速且成本效益高的推理。尽管体积小,但在数学、编码和视觉任务中的表现与O3相当。例如,在AIME 2025中,当结合Python解释器时,O4-mini获得了99.5%的分数。由于其效率优于O3,用户可以期望更高的使用限制,使其非常适合处理大量推理任务。
开放人工智能声称,这两个新模型应该会感觉更自然和对话化,因为它们可以引用记忆和过去的对话。在幕后,开放人工智能使用大规模强化学习来提高性能,并通过强化学习训练这两个模型使用工具。在效率方面,对于大多数现实世界的应用场景,新的O3和O4-mini模型分别比O1和O3-mini更智能且更具性价比。在安全性方面,开放人工智能报告称,O3和O4-mini在所有三个类别的安全框架中均保持在“高”风险级别以下。
除了这些模型,开放人工智能还宣布了一项名为Codex CLI的新实验——一款轻量级的编码助手,供开发者直接在其电脑上使用。此外,该公司正在启动一项100万美元的计划,以支持利用Codex CLI和开放人工智能模型的项目。新的O4-mini、O4-mini-high和O3模型现在可通过模型选择器提供给ChatGPT Plus、Pro和Team用户。这些模型取代了O1、O3-mini和O3-mini-high。ChatGPT Enterprise和Edu用户将在下周获得访问权限。ChatGPT免费用户可以在文本编辑器中选择“思考”来体验O4-mini。
开放人工智能计划在未来几周内推出具备完整工具支持的OpenAI O3-Pro。O3模型的价格为每百万个输入令牌10美元,每百万个输出令牌40美元。O4-mini模型的定价与O3-mini相同:每百万个输入令牌1.10美元,每百万个输出令牌4.40美元。开发人员现在可以通过Chat Completion API和Responses API访问这些新模型。Responses API现在支持推理总结,并能在函数调用周围保留推理标记以提升性能。不久,开放人工智能将在模型的推理流程中加入对自家工具的支持,如网络搜索、文件搜索和代码解释器。
(以上内容均由Ai生成)