OpenAI 的 o3 在回答科学问题的新 AI 排行榜上名列前茅

发布时间：2025年7月10日来源：szf

快速阅读: 据《Nature.com》称，由OpenAI开发的O3在SciArena评测中排名第一，其回答科学问题质量最高。该平台评估23个大模型，用户投票决定排名。

o3，由ChatGPT的创作者开发的人工智能（AI）模型，在多个领域回答科学问题的AI工具中排名第一，根据上周推出的基准平台显示。SciArena（科学竞技场），由位于华盛顿州西雅图的艾伦人工智能研究所（Ai2）设立，对23个大型语言模型（LLMs）进行了排名，依据是它们对科学问题的回答。这些回答的质量由102位研究人员投票决定。由位于加利福尼亚州旧金山的OpenAI开发的o3，在自然科学、医疗保健、工程学以及人文和社会科学方面被评定为最佳回答，这是在超过13,000次投票之后得出的结果。由位于中国杭州的DeepSeek开发的DeepSeek-R1，在自然科学问题上排名第二，在工程学上排名第四。谷歌的Gemini-2.5-Pro在自然科学中排名第三，在工程学和医疗保健中排名第五。据Ai2的研究科学家阿曼·科汉表示，用户可能偏爱o3是因为该模型倾向于提供大量文献细节，并生成技术性较强的回应。但他表示，解释模型性能差异的原因具有挑战性，因为大多数模型属于私有。训练数据的不同以及模型所优化的方面等因素，可能会部分解释这种差异。SciArena是最新推出的用于评估AI模型在特定任务上的表现的平台之一，也是首批使用众包反馈对科学任务表现进行排名的平台之一。“SciArena是一项积极的努力，有助于对LLM辅助的文献任务进行仔细评估。”澳大利亚堪培拉大学的机器人学和AI研究员拉胡尔·肖姆说道。随机选择模型为了对23个LLM进行排名，SciArena要求研究人员提交科学问题。他们从两个随机选择的模型中得到答案，这些答案引用了Semantic Scholar中的资料，Semantic Scholar是由Ai2开发的另一个AI研究工具。然后用户投票决定哪个模型提供了最佳答案，两个模型是否表现相当，或者两者表现都不好。该平台现在已公开可用，用户可以免费提问研究问题。所有用户都可以从两个模型中获得答案，并可以投票评价它们的表现，但只有经过验证的用户同意条款后的投票才会被计入排行榜，公司表示排行榜将定期更新。澳大利亚悉尼大学的AI研究员乔纳森·库默菲尔德表示：“向LLM提问科学问题并相信其答案，将帮助研究人员跟上各自领域的最新文献。”“这将帮助研究人员找到他们可能原本会错过的研究工作。”

(以上内容均由Ai生成)