北京程序员通宵“扫雷”:苹果论文被曝30%基准数据出错,ICLR稿件紧急勘误
快速阅读: 苹果视觉推理论文称“小模型超越GPT-5”遭质疑,阶跃星辰雷洋发现代码问题及30%标签错误,作者团队承认缺陷并更新基准,提醒同行复现前需小样本测试。
ICLR2025首轮审稿刚刚结束,苹果一篇声称“小模型超越GPT-5”的视觉推理论文立即遭到公开质疑。阶跃星辰研究员雷洋在复现过程中发现:官方代码遗漏了图片输入,修复后准确率大幅下降;随后抽查20道题目,竟有6道Ground Truth标签错误,估计整体GT错误率约为30%。
雷洋在GitHub上提交问题,仅得到两句回复后就被关闭,于是撰写长文警示审稿人。帖子迅速传播,作者团队次日承认“数据生成流程存在缺陷”,并紧急上传修正版基准,承诺重新运行实验、更新结果。此事件引发学术界广泛讨论:在大模型时代,如果自动生成的数据集缺乏人工质量检查,即便是行业巨头也难逃失误。雷洋提醒同行,“复现前先进行小样本‘体检’,以免因错误的GT浪费计算资源和时间”。
(以上内容均由Ai生成)