北京程序员通宵“扫雷”：苹果论文被曝30%基准数据出错，ICLR稿件紧急勘误

发布时间：2025年12月1日来源：szf

快速阅读: 苹果视觉推理论文称“小模型超越GPT-5”遭质疑，阶跃星辰雷洋发现代码问题及30%标签错误，作者团队承认缺陷并更新基准，提醒同行复现前需小样本测试。

ICLR2025首轮审稿刚刚结束，苹果一篇声称“小模型超越GPT-5”的视觉推理论文立即遭到公开质疑。阶跃星辰研究员雷洋在复现过程中发现：官方代码遗漏了图片输入，修复后准确率大幅下降；随后抽查20道题目，竟有6道Ground Truth标签错误，估计整体GT错误率约为30%。

雷洋在GitHub上提交问题，仅得到两句回复后就被关闭，于是撰写长文警示审稿人。帖子迅速传播，作者团队次日承认“数据生成流程存在缺陷”，并紧急上传修正版基准，承诺重新运行实验、更新结果。此事件引发学术界广泛讨论：在大模型时代，如果自动生成的数据集缺乏人工质量检查，即便是行业巨头也难逃失误。雷洋提醒同行，“复现前先进行小样本‘体检’，以免因错误的GT浪费计算资源和时间”。

(以上内容均由Ai生成)