AI数学能力显著提升,挑战传统教育模式
快速阅读: 人工智能在学科考试中展现显著进步,尤其在数学方面,通过大量练习提升解题能力。现有教育评估方法需改革,应加强学生解决实际问题的能力培养,而非仅测试“肌肉记忆”。
人工智能在各类学科考试中,尤其是本科水平以下的测试中,最近展现出显著的进步,通常超越大多数学生(Scarfe等人,2024年),尽管其数学能力的发展相对较为缓慢(Kiela等人,2023年)。由于人工智能通过经验学习,其能力取决于与类似问题的训练。为了评估性能,已经创建了大型的数学问题数据库。GSM8K(小学数学8000)包含8000个至九年级标准的问题,而MATH则有12500个更难的竞争级题目。目前表现最佳的人工智能在GSM8K上的准确率可达97.1%(Zhong等人,2024年),较2022年4月的74.4%(Wang等人,2022年)有所提高,在MATH上的准确率为87.9%(Lei等人,2024年),比2022年6月的64.9%(Lewkowycz等人,2022年)也有提升。这些进展不仅引发了关于数学教学与学习的重要问题,也提出了关于数学教育的深层次哲学问题。
当前数学教育的一个普遍问题是学生常常会问为什么要学某个主题。这通常可以通过将材料与实际应用联系起来解决,作为未来概念的基础,或是与职业相关性联系起来。然而,对于那些难以提供超出标准化测试之外的理由的话题来说,这是一个更大的挑战,因为标准化测试的结构和形式往往与基础数学技能在校园外的价值无关。这实际上是一个由评估驱动的教学大纲的例子。
现行的评估方法不太适合评价学生解决实际问题的能力,可能是由于设计标准化评估的难度较大。然而,论文类科目多年来已经成功地实现了这一点。未来的评估应该不仅仅测试知识和公式,还应该衡量学生解决实际问题的能力。这意味着学生需要学会提出正确的问题,处理复杂和/或不完整的数据,选择解决问题的最佳方法,并在适当的时候使用计算工具或人工智能。这些数学技能无疑可以在学校环境中教授,但现行的标准化评估主要还是考察学生的“肌肉记忆”,尽管现代技术在力量和效率上远超人力。
这并不是说手动教授数学方法没有价值。相反,能够清晰地解释一个概念,特别是让计算机这种按字面意义解释指令的工具也能理解,是深刻理解的一个强烈标志。因此,我非常支持向学生教授计算思维、问题解决和编程。
简而言之,当今人工智能时代下的数学教育问题在于,将手工完成数学计算的熟练度误认为是掌握合适方法的关键。引用Wolfram(2020年)的话,我们需要的是顶级的问题解决者,而不是在与计算机竞争中几乎没有胜算的次级竞争者。因此,学生需要接受AI增强的计算思维教育,利用最新的技术工具解决问题,以缩小学校数学与日益增长的技术工作需求之间的差距。
一个解决方案是Wolfram(2020年)提出的四步法——建议学校数学课程体系转变为一个更广泛的框架,基于计算和数学思维,模拟现实生活中的问题解决过程:
1. 明确感兴趣的问题;
2. 将问题从自然语言形式抽象为计算准备的形式;
3. 使用最合适的方法从抽象形式计算答案;
4. 在问题的背景下解读结果。
大多数课程几乎完全集中在第三步上,这在过去计算机尚未普及时是有道理的,但现在情况已不再如此。在当今世界,几乎所有计算都由计算机完成,但在学校里,学生仍然承担着这一责任,很少借助计算工具。用于解决问题的关键分析和决策过程,如选择相关信息、决定可接受的计算成本等,往往是思考过程中未被充分探讨的部分。
在新冠疫情初期,数据稀缺且不确定,但科学家们利用了过去四十年来从先前疫情中积累的数学工具。他们的任务包括:
1. 考虑感兴趣的问题,例如病毒的传播性、高风险群体以及是否关闭学校;
2. 评估哪些方法最适用于感兴趣的公共卫生问题。
在尽可能准确地计算所需答案的同时,考虑到这些答案对政策制定者的解读,同时承认方法和结果的优势、局限性和不确定性。如果将这一过程的核心要素提炼出来,我们就会得到沃夫朗(2020)提出的数学课程在人工智能时代应该如何演化的四阶段模型。
值得注意的是,这并不是要让当前的课程变得完全无关——对于追求STEM领域职业的学生来说,计算机只有在程序员充分理解背后的数学原理时才能被编程。然而,关键在于,并非所有学生都通过当前的课程为学校后的生活做好了数学准备。
课程内的进展
令人鼓舞的是,两个高中课程正在填补这一空白。IB应用与解释课程要求学生使用技术解决实际问题,尽管目前存在一些限制,但未来版本显示出强大的潜力。然而,在我看来,英国最先进且最具前瞻性的课程是MEI A水平进一步数学中的“进一步纯数与技术”选项。
该模块涵盖曲线性质的研究、微分方程的探索以及数论,但在理解和解释数学问题上给予了更多的重视,而不仅仅是进行常规计算。学生被要求使用Python解决那些手动解决过于耗时或困难的问题。在这个模块中,“重点在于学生对数学的理解,技术则是支持他们实现这一点的工具”(Lee & Button, 2020),这是对史密斯关于16岁以上数学教学审查的直接回应,其中强调使用技术是应对快速变化世界的关键优先事项(教育部,2017)。
2024/25学年,Sevenoaks学校的数学系试点了一个受“进一步纯数与技术”进步理念启发的八年级课程。学生们学习Python编程,并利用他们的编程技能、人工智能和其他工具来解决开放式的数学问题,当可能时会手工检查结果。如果成功,这种方法将扩展到更多的班级和年级组。
随着技术的进步和计算机自动化更多任务,教育必须跟上步伐。学生应该学会如何与技术合作,理解如何将人类洞察力与计算能力结合起来。
Paul Parham博士是Sevenoaks学校的数学副主管。
更多信息与资源
– 教育部:独立报告:史密斯关于16岁以上数学教学的审查:报告及政府回应,2017年:
www.gov.uk/government/publications/smith-review-of-post-16-maths-report-and-government-response
– Kiela等人:AI系统在各种能力上的测试成绩相对于人类表现,2023年:
https://ourworldindata.org/grapher/test-scores-ai-capabilities-relative-human-performance
– Lee & Button:在最近更新的预大学数学课程“进一步纯数与技术”(FPT)中编程,2020年:
https://doi.org/10.21100/msor.v18i2.1096
– Lei等人:MACM:利用多代理系统在解决复杂数学问题时进行条件挖掘,2024年:
https://arxiv.org/pdf/2404.04735v2
– Lewkowycz等人:利用语言模型解决定量推理问题,2022年:
https://arxiv.org/pdf/2206.14858v2
– Scarfe等人:人工智能渗透大学考试系统的现实测试:“图灵测试”案例研究,2024年:
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354
– Wang等人:自洽性提高了语言模型在解决数学问题时的链式思考能力,ICLR,2022年:
https://arxiv.org/pdf/2203.11171v4
– Wolfram:《数学(学)修复:人工智能时代的教育蓝图》,Wolfram Media Inc,2020年:
www.wolfram-media.com/products/the-maths-fix
– Zhong等人:在GSM8K上实现>97%的成绩:深入理解问题使大型语言模型成为更好的数学文字问题解决者,2024年:
https://arxiv.org/pdf/2404.14963v3
(以上内容均由Ai生成)