OpenAI 的 o3 AI 模型在基准测试中的得分低于该公司最初暗示的得分
快速阅读: 《雅虎美国》消息,近日,OpenAI的O3模型因基准测试结果差异引发透明度质疑。OpenAI称其在FrontierMath中答对超25%,但Epoch测试仅得10%。差异可能源于计算能力、测试环境或数据集不同。这促使人们对模型测试方法进行反思。
近日,由OpenAI开发的O3人工智能模型因在第一方和第三方基准测试结果之间出现差异,引发了外界对其透明度及模型测试实践的广泛质疑。
去年12月,OpenAI宣布推出O3模型,并声称其在FrontierMath(一项极具挑战性的数学问题集)中能够答对超过四分之一的问题,这一表现远远领先于其他竞争者。据当时的消息,排名第二的模型仅能答对约2%的FrontierMath问题。OpenAI首席研究官马克·陈在直播中表示:“目前市面上的所有产品在FrontierMath上的得分都不超过2%,而我们内部测试表明,在O3的高强度计算环境中,我们能够实现超过25%的准确率。”他补充道,这一数字极有可能是上限值,是基于一个计算能力更强的O3版本所取得的成绩。
然而,负责FrontierMath的研究机构Epoch AI于本周五公布了其独立基准测试的结果。Epoch的测试结果显示,O3的得分约为10%,这一数据明显低于OpenAI此前宣称的最高分数。尽管如此,这并不意味着OpenAI存在虚假宣传。实际上,OpenAI在12月公布的基准测试结果反映的是一个下限分数,与Epoch观察到的分数基本一致。Epoch进一步指出,其测试环境可能与OpenAI有所不同,并且测试中使用的FrontierMath版本也是更新后的版本。“我们的测试结果与OpenAI的结果存在差异,可能源于OpenAI采用了更强大的内部框架、更多的测试时间或计算资源,又或是因为测试是在FrontierMath的不同子集上进行的(frontiermath-2024-11-26中的180个问题与frontiermath-2025-02-28-private中的290个问题)。”
根据ARC奖基金会X平台上的帖子,该组织测试了O3的预发布版本,发现公共版的O3模型“属于另一款模型……主要针对聊天和产品应用进行了优化”,这与Epoch的报告内容相互印证。
这些差异引发了外界对模型测试方法的深入思考。无论是计算能力的差异还是测试环境的不同,都凸显出确保基准测试公平性和透明度的重要性。无论如何,这些讨论无疑为人工智能领域的未来发展提供了宝贵的经验与启示。
(以上内容均由Ai生成)