OpenAI 的 o3 在回答科学问题的新 AI 排行榜上名列前茅

发布时间:2025年7月10日    来源:szf
OpenAI 的 o3 在回答科学问题的新 AI 排行榜上名列前茅

快速阅读: 据《Nature.com》称,由OpenAI开发的O3在SciArena评测中排名第一,其回答科学问题质量最高。该平台评估23个大模型,用户投票决定排名。

o3,由ChatGPT的创作者开发的人工智能(AI)模型,在多个领域回答科学问题的AI工具中排名第一,根据上周推出的基准平台显示。SciArena(科学竞技场),由位于华盛顿州西雅图的艾伦人工智能研究所(Ai2)设立,对23个大型语言模型(LLMs)进行了排名,依据是它们对科学问题的回答。这些回答的质量由102位研究人员投票决定。由位于加利福尼亚州旧金山的OpenAI开发的o3,在自然科学、医疗保健、工程学以及人文和社会科学方面被评定为最佳回答,这是在超过13,000次投票之后得出的结果。由位于中国杭州的DeepSeek开发的DeepSeek-R1,在自然科学问题上排名第二,在工程学上排名第四。谷歌的Gemini-2.5-Pro在自然科学中排名第三,在工程学和医疗保健中排名第五。据Ai2的研究科学家阿曼·科汉表示,用户可能偏爱o3是因为该模型倾向于提供大量文献细节,并生成技术性较强的回应。但他表示,解释模型性能差异的原因具有挑战性,因为大多数模型属于私有。训练数据的不同以及模型所优化的方面等因素,可能会部分解释这种差异。SciArena是最新推出的用于评估AI模型在特定任务上的表现的平台之一,也是首批使用众包反馈对科学任务表现进行排名的平台之一。“SciArena是一项积极的努力,有助于对LLM辅助的文献任务进行仔细评估。”澳大利亚堪培拉大学的机器人学和AI研究员拉胡尔·肖姆说道。随机选择模型为了对23个LLM进行排名,SciArena要求研究人员提交科学问题。他们从两个随机选择的模型中得到答案,这些答案引用了Semantic Scholar中的资料,Semantic Scholar是由Ai2开发的另一个AI研究工具。然后用户投票决定哪个模型提供了最佳答案,两个模型是否表现相当,或者两者表现都不好。该平台现在已公开可用,用户可以免费提问研究问题。所有用户都可以从两个模型中获得答案,并可以投票评价它们的表现,但只有经过验证的用户同意条款后的投票才会被计入排行榜,公司表示排行榜将定期更新。澳大利亚悉尼大学的AI研究员乔纳森·库默菲尔德表示:“向LLM提问科学问题并相信其答案,将帮助研究人员跟上各自领域的最新文献。”“这将帮助研究人员找到他们可能原本会错过的研究工作。”

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日