OpenAI 的 o3 在回答科学问题的新 AI 排行榜上名列前茅
快速阅读: 据《Nature.com》称,由OpenAI开发的O3在SciArena评测中排名第一,其回答科学问题质量最高。该平台评估23个大模型,用户投票决定排名。
o3,由ChatGPT的创作者开发的人工智能(AI)模型,在多个领域回答科学问题的AI工具中排名第一,根据上周推出的基准平台显示。SciArena(科学竞技场),由位于华盛顿州西雅图的艾伦人工智能研究所(Ai2)设立,对23个大型语言模型(LLMs)进行了排名,依据是它们对科学问题的回答。这些回答的质量由102位研究人员投票决定。由位于加利福尼亚州旧金山的OpenAI开发的o3,在自然科学、医疗保健、工程学以及人文和社会科学方面被评定为最佳回答,这是在超过13,000次投票之后得出的结果。由位于中国杭州的DeepSeek开发的DeepSeek-R1,在自然科学问题上排名第二,在工程学上排名第四。谷歌的Gemini-2.5-Pro在自然科学中排名第三,在工程学和医疗保健中排名第五。据Ai2的研究科学家阿曼·科汉表示,用户可能偏爱o3是因为该模型倾向于提供大量文献细节,并生成技术性较强的回应。但他表示,解释模型性能差异的原因具有挑战性,因为大多数模型属于私有。训练数据的不同以及模型所优化的方面等因素,可能会部分解释这种差异。SciArena是最新推出的用于评估AI模型在特定任务上的表现的平台之一,也是首批使用众包反馈对科学任务表现进行排名的平台之一。“SciArena是一项积极的努力,有助于对LLM辅助的文献任务进行仔细评估。”澳大利亚堪培拉大学的机器人学和AI研究员拉胡尔·肖姆说道。随机选择模型为了对23个LLM进行排名,SciArena要求研究人员提交科学问题。他们从两个随机选择的模型中得到答案,这些答案引用了Semantic Scholar中的资料,Semantic Scholar是由Ai2开发的另一个AI研究工具。然后用户投票决定哪个模型提供了最佳答案,两个模型是否表现相当,或者两者表现都不好。该平台现在已公开可用,用户可以免费提问研究问题。所有用户都可以从两个模型中获得答案,并可以投票评价它们的表现,但只有经过验证的用户同意条款后的投票才会被计入排行榜,公司表示排行榜将定期更新。澳大利亚悉尼大学的AI研究员乔纳森·库默菲尔德表示:“向LLM提问科学问题并相信其答案,将帮助研究人员跟上各自领域的最新文献。”“这将帮助研究人员找到他们可能原本会错过的研究工作。”
(以上内容均由Ai生成)