AI数学能力显著提升,多项测试成绩亮眼
                            快速阅读: 人工智能在本科水平考试中超越多数学生,尤其在数学方面进步明显。通过GSM8K和MATH题库测试,AI正确率分别达97.1%和87.9%,显著高于2022年水平。
近期,人工智能在各类本科水平的考试中展现出显著的进步,通常能超过大多数学生(Scarfe等人,2024年),尽管其数学能力的提升相对较为缓慢(Kiela等人,2023年)。由于AI的学习依赖于经验,因此其能力取决于训练时所接触的类似问题。为了评估AI的表现,研究人员创建了大量数学题库。GSM8K(小学数学8000题)包含8000道至九年级水平的题目,而MATH则包含12500道难度较高的竞赛级别题目。目前,表现最佳的AI在GSM8K上可达到97.1%的正确率(Zhong等人,2024年),比2022年4月的74.4%(Wang等人,2022年)有所提高,在MATH上的正确率为87.9%(Lei等人,2024年),相比2022年6月的64.9%(Lewkowycz等人,2022年)也有显著提升。
(以上内容均由Ai生成)