FrontierScience发布新基准评估AI科学推理能力

发布时间：2025年12月17日来源：szf

快速阅读: 12月17日消息，研究团队推出新基准FrontierScience，用于评估AI在物理、化学、生物等领域的科研推理能力。GPT-5.2在竞赛型任务中得分77%，但在真实科研场景中仅得25%，显示其在开放式思维上仍存局限。

在科学研究中，推理能力至关重要。科学家不仅需要掌握事实，还需提出、检验并修正假设，同时融合跨学科思想。

近年来，人工智能模型能力持续提升，在多个重大领域取得突破性进展。部分系统在国际数学奥林匹克和信息学奥林匹克竞赛中表现优异，GPT-5等先进模型也正有效加速真实科研流程。研究人员借助这些工具开展跨学科文献检索与复杂数学证明，将原本需数天乃至数周的工作缩短至数小时。

为系统评估AI的科研推理能力，研究团队推出了新基准FrontierScience。该基准聚焦物理、化学、生物等领域的专家级推理，包含数百道经专家验证的难题，并设“奥林匹克版”与“研究版”两个模块，分别衡量竞赛型推理与真实科研能力。初步测试显示，GPT-5.2在两项任务中均领先其他模型，其中奥林匹克模块得分77%，研究模块得分为25%。

尽管当前模型已能辅助结构化推理环节，但在开放式思维方面仍有明显不足。科学家虽可借其提速研究流程，问题框架构建与结果验证仍需依赖人类判断。未来，团队将持续完善FrontierScience基准，拓展应用范围，推动AI成为科学发现的可靠伙伴。

(以上内容均由Ai生成)

引用自：AIbase人工智能资讯网站