顶级AI模型在博士级物理测试中表现不佳,准确率低于10%
快速阅读: 全球50多位物理学家构建的“CritPt”测试显示,顶级AI模型如Gemini3Pro和GPT-5在解决原创性物理问题上的准确率不足10%,表明AI尚不具备成为自主科学家的能力,未来可能作为研究助理辅助科研。
据 AIbase 报道 ,一项名为“CritPt”的全新物理基准测试结果显示,即使是目前最 顶尖 的人工智能模型,如 Gemini3Pro 和 GPT-5,距离成为真正的自主科学家仍有巨大的差距。该基准测试旨在将领先的 AI 模型置于博士早期研究水平进行严苛考核。
CritPt:检验 AI 的科研实战能力 “CritPt”由来自全球30多个机构的50多位物理学家共同构建。其核心目标远超对教科书知识的记忆检验,而是旨在测试 AI 是否具备解决原创性、未发表研究问题的能力——这相当于一位能力出众的物理学研究生的独立工作水平。
为了确保测试的严谨性并防止作弊,CritPt 包含的71个完整研究挑战全部基于未发表的资料,涵盖量子物理、天体物理、高能物理和生物物理等11个前沿领域。研究团队还将这些挑战进一步细分为190个较小的“检查点”,以衡量模型在解决复杂问题过程中的阶段性进展。
令人警醒的初步结果: 顶级 模型准确率不足10% 测试的初步结果令人倍感清醒。根据人工智能分析公司(Artificial Analysis)的独立评估显示,即便是目前 最强 大的系统,也未能完成绝大多数任务: 谷歌的“Gemini3Pro Preview”准确率仅为 9.1% 。(值得注意的是,其使用的词元数量比第二名少了10%)。
排名第二的 OpenAI“GPT-5.1(high)”准确率仅为 4.9% 。
研究结果残酷地揭示,目前的大型语言模型在面对开放式物理问题时,普遍缺乏必要的严谨性、创造性和精确性。尽管模型在更简单、定义明确的“检查点”子任务上表现出了一定进步,但在面对完整的科研挑战时却束手无策。
核心障碍:推理能力的脆弱性 研究团队引入了一项更为严格的指标——“一致解决率”(要求在五次尝试中至少做对四次),以测试模型的稳定性。在这一指标下,模型的表现全面大幅下滑。
这种稳健性的缺失给实际科研工作流程带来了严峻挑战。模型常常能得出看似合理的结果,但其中却隐藏着难以察觉的细微错误,这极易误导研究人员,并需要专家耗费大量时间进行审核复查。
未来展望:从科学家到研究助理 基于 CritPt 的测试结果,研究人员认为,在可预见的未来,更切实际的目标并非用“AI 科学家”取代人类专家,而是利用 AI 作为“研究助理”来自动化特定的工作流程步骤。
这一观点与当前的行业规划相符:OpenAI 声称 GPT-5已开始为研究人员节省时间,并计划在2026年9月前推出研究实习生系统,目标是在2028年3月前推出完全自主的研究员系统。然而,CritPt 的结果表明,要实现这一 终极 目标,AI 仍需跨越巨大的技术鸿沟。
(以上内容均由Ai生成)