陶哲轩评OpenAI新模型IMO夺金 GPT-5测试版亮相

发布时间：2025年7月20日来源：szf

快速阅读: 据相关媒体报道，7月11日，OpenAI模型在IMO中获金牌，解对5题得35分。其采用通用强化学习，未使用工具，由前金牌得主评分。陶哲轩称需统一标准。MathArena评测显示其他模型得分较低。

据量子位报道，7月11日，国际数学奥林匹克竞赛（IMO）上，OpenAI最新模型取得了金牌成绩。该模型在6道题中成功解决了5道，获得35分（满分42分），超过了今年的金牌分数线。这是首次有AI模型在这一顶级数学竞赛中达到金牌水平。

OpenAI员工Alexander Wei透露，即将发布的GPT-5与此次取得金牌的模型有所不同，后者是一个实验性研究，短期内没有发布计划。Wei强调，此次成功并非基于特定任务的狭隘方法，而是在通用强化学习和测试时计算扩展方面取得了新突破。

此次评测中，模型在与人类选手相同的条件下参加了考试，包括两场各4.5小时的考试，不允许使用任何工具或联网，只能阅读官方题目陈述，并用自然语言写出证明过程。每道题的解答由三位前IMO奖牌获得者独立评分，确保评分的公正性和准确性。

数学界顶尖学者陶哲轩对此发表评论，指出尽管多家AI公司在IMO题目上取得好成绩，但由于缺乏统一的测试环境和标准，很难进行公平比较。他认为，在没有预先公布方法论的情况下，不应轻易评价AI的竞赛表现。他还列举了多种可能影响AI表现的因素，如给予更多时间、允许使用工具等，这些都会改变竞赛的形式和难度。

与此同时，数学竞赛评测平台MathArena发布了独立评测结果，显示即使是表现最好的Gemini 2.5 Pro也仅获得13分（31%），远低于铜牌线19分。MathArena团队表示，期待OpenAI模型的发布及使用其基准进行独立评估。

OpenAI团队对这一成果充满信心。研究员Alexander Wei回忆说，2021年他曾预测2025年7月AI在数学上的进展，当时认为MATH基准测试能达到30%，没想到如今已获得IMO金牌。OpenAI新模型的解题过程已公开，详情见相关链接。

(以上内容均由AI生成)

你可能还想读