FrontierScience发布新基准评估AI科学推理能力
快速阅读: 12月17日消息,研究团队推出新基准FrontierScience,用于评估AI在物理、化学、生物等领域的科研推理能力。GPT-5.2在竞赛型任务中得分77%,但在真实科研场景中仅得25%,显示其在开放式思维上仍存局限。
在科学研究中,推理能力至关重要。科学家不仅需要掌握事实,还需提出、检验并修正假设,同时融合跨学科思想。
近年来,人工智能模型能力持续提升,在多个重大领域取得突破性进展。部分系统在国际数学奥林匹克和信息学奥林匹克竞赛中表现优异,GPT-5等先进模型也正有效加速真实科研流程。研究人员借助这些工具开展跨学科文献检索与复杂数学证明,将原本需数天乃至数周的工作缩短至数小时。
为系统评估AI的科研推理能力,研究团队推出了新基准FrontierScience。该基准聚焦物理、化学、生物等领域的专家级推理,包含数百道经专家验证的难题,并设“奥林匹克版”与“研究版”两个模块,分别衡量竞赛型推理与真实科研能力。初步测试显示,GPT-5.2在两项任务中均领先其他模型,其中奥林匹克模块得分77%,研究模块得分为25%。
尽管当前模型已能辅助结构化推理环节,但在开放式思维方面仍有明显不足。科学家虽可借其提速研究流程,问题框架构建与结果验证仍需依赖人类判断。未来,团队将持续完善FrontierScience基准,拓展应用范围,推动AI成为科学发现的可靠伙伴。
(以上内容均由Ai生成)
引用自:AIbase人工智能资讯网站