OpenAI 的 o3 AI 模型在基准测试中的得分低于该公司最初暗示的得分

发布时间：2025年4月21日来源：szf

快速阅读: 《雅虎美国》消息，近日，OpenAI的O3模型因基准测试结果差异引发透明度质疑。OpenAI称其在FrontierMath中答对超25%，但Epoch测试仅得10%。差异可能源于计算能力、测试环境或数据集不同。这促使人们对模型测试方法进行反思。

近日，由OpenAI开发的O3人工智能模型因在第一方和第三方基准测试结果之间出现差异，引发了外界对其透明度及模型测试实践的广泛质疑。

去年12月，OpenAI宣布推出O3模型，并声称其在FrontierMath（一项极具挑战性的数学问题集）中能够答对超过四分之一的问题，这一表现远远领先于其他竞争者。据当时的消息，排名第二的模型仅能答对约2%的FrontierMath问题。OpenAI首席研究官马克·陈在直播中表示：“目前市面上的所有产品在FrontierMath上的得分都不超过2%，而我们内部测试表明，在O3的高强度计算环境中，我们能够实现超过25%的准确率。”他补充道，这一数字极有可能是上限值，是基于一个计算能力更强的O3版本所取得的成绩。

然而，负责FrontierMath的研究机构Epoch AI于本周五公布了其独立基准测试的结果。Epoch的测试结果显示，O3的得分约为10%，这一数据明显低于OpenAI此前宣称的最高分数。尽管如此，这并不意味着OpenAI存在虚假宣传。实际上，OpenAI在12月公布的基准测试结果反映的是一个下限分数，与Epoch观察到的分数基本一致。Epoch进一步指出，其测试环境可能与OpenAI有所不同，并且测试中使用的FrontierMath版本也是更新后的版本。“我们的测试结果与OpenAI的结果存在差异，可能源于OpenAI采用了更强大的内部框架、更多的测试时间或计算资源，又或是因为测试是在FrontierMath的不同子集上进行的（frontiermath-2024-11-26中的180个问题与frontiermath-2025-02-28-private中的290个问题）。”

根据ARC奖基金会X平台上的帖子，该组织测试了O3的预发布版本，发现公共版的O3模型“属于另一款模型……主要针对聊天和产品应用进行了优化”，这与Epoch的报告内容相互印证。

这些差异引发了外界对模型测试方法的深入思考。无论是计算能力的差异还是测试环境的不同，都凸显出确保基准测试公平性和透明度的重要性。无论如何，这些讨论无疑为人工智能领域的未来发展提供了宝贵的经验与启示。

(以上内容均由Ai生成)