AI数学能力显著提升,挑战传统教育模式

发布时间:2025年11月4日    来源:szf
AI数学能力显著提升,挑战传统教育模式

快速阅读: 人工智能在学科考试中展现显著进步,尤其在数学方面,通过大量练习提升解题能力。现有教育评估方法需改革,应加强学生解决实际问题的能力培养,而非仅测试“肌肉记忆”。

人工智能在各类学科考试中,尤其是本科水平以下的测试中,最近展现出显著的进步,通常超越大多数学生(Scarfe等人,2024年),尽管其数学能力的发展相对较为缓慢(Kiela等人,2023年)。由于人工智能通过经验学习,其能力取决于与类似问题的训练。为了评估性能,已经创建了大型的数学问题数据库。GSM8K(小学数学8000)包含8000个至九年级标准的问题,而MATH则有12500个更难的竞争级题目。目前表现最佳的人工智能在GSM8K上的准确率可达97.1%(Zhong等人,2024年),较2022年4月的74.4%(Wang等人,2022年)有所提高,在MATH上的准确率为87.9%(Lei等人,2024年),比2022年6月的64.9%(Lewkowycz等人,2022年)也有提升。这些进展不仅引发了关于数学教学与学习的重要问题,也提出了关于数学教育的深层次哲学问题。

当前数学教育的一个普遍问题是学生常常会问为什么要学某个主题。这通常可以通过将材料与实际应用联系起来解决,作为未来概念的基础,或是与职业相关性联系起来。然而,对于那些难以提供超出标准化测试之外的理由的话题来说,这是一个更大的挑战,因为标准化测试的结构和形式往往与基础数学技能在校园外的价值无关。这实际上是一个由评估驱动的教学大纲的例子。

现行的评估方法不太适合评价学生解决实际问题的能力,可能是由于设计标准化评估的难度较大。然而,论文类科目多年来已经成功地实现了这一点。未来的评估应该不仅仅测试知识和公式,还应该衡量学生解决实际问题的能力。这意味着学生需要学会提出正确的问题,处理复杂和/或不完整的数据,选择解决问题的最佳方法,并在适当的时候使用计算工具或人工智能。这些数学技能无疑可以在学校环境中教授,但现行的标准化评估主要还是考察学生的“肌肉记忆”,尽管现代技术在力量和效率上远超人力。

这并不是说手动教授数学方法没有价值。相反,能够清晰地解释一个概念,特别是让计算机这种按字面意义解释指令的工具也能理解,是深刻理解的一个强烈标志。因此,我非常支持向学生教授计算思维、问题解决和编程。

简而言之,当今人工智能时代下的数学教育问题在于,将手工完成数学计算的熟练度误认为是掌握合适方法的关键。引用Wolfram(2020年)的话,我们需要的是顶级的问题解决者,而不是在与计算机竞争中几乎没有胜算的次级竞争者。因此,学生需要接受AI增强的计算思维教育,利用最新的技术工具解决问题,以缩小学校数学与日益增长的技术工作需求之间的差距。

一个解决方案是Wolfram(2020年)提出的四步法——建议学校数学课程体系转变为一个更广泛的框架,基于计算和数学思维,模拟现实生活中的问题解决过程:

1. 明确感兴趣的问题;

2. 将问题从自然语言形式抽象为计算准备的形式;

3. 使用最合适的方法从抽象形式计算答案;

4. 在问题的背景下解读结果。

大多数课程几乎完全集中在第三步上,这在过去计算机尚未普及时是有道理的,但现在情况已不再如此。在当今世界,几乎所有计算都由计算机完成,但在学校里,学生仍然承担着这一责任,很少借助计算工具。用于解决问题的关键分析和决策过程,如选择相关信息、决定可接受的计算成本等,往往是思考过程中未被充分探讨的部分。

在新冠疫情初期,数据稀缺且不确定,但科学家们利用了过去四十年来从先前疫情中积累的数学工具。他们的任务包括:

1. 考虑感兴趣的问题,例如病毒的传播性、高风险群体以及是否关闭学校;

2. 评估哪些方法最适用于感兴趣的公共卫生问题。

在尽可能准确地计算所需答案的同时,考虑到这些答案对政策制定者的解读,同时承认方法和结果的优势、局限性和不确定性。如果将这一过程的核心要素提炼出来,我们就会得到沃夫朗(2020)提出的数学课程在人工智能时代应该如何演化的四阶段模型。

值得注意的是,这并不是要让当前的课程变得完全无关——对于追求STEM领域职业的学生来说,计算机只有在程序员充分理解背后的数学原理时才能被编程。然而,关键在于,并非所有学生都通过当前的课程为学校后的生活做好了数学准备。

课程内的进展

令人鼓舞的是,两个高中课程正在填补这一空白。IB应用与解释课程要求学生使用技术解决实际问题,尽管目前存在一些限制,但未来版本显示出强大的潜力。然而,在我看来,英国最先进且最具前瞻性的课程是MEI A水平进一步数学中的“进一步纯数与技术”选项。

该模块涵盖曲线性质的研究、微分方程的探索以及数论,但在理解和解释数学问题上给予了更多的重视,而不仅仅是进行常规计算。学生被要求使用Python解决那些手动解决过于耗时或困难的问题。在这个模块中,“重点在于学生对数学的理解,技术则是支持他们实现这一点的工具”(Lee & Button, 2020),这是对史密斯关于16岁以上数学教学审查的直接回应,其中强调使用技术是应对快速变化世界的关键优先事项(教育部,2017)。

2024/25学年,Sevenoaks学校的数学系试点了一个受“进一步纯数与技术”进步理念启发的八年级课程。学生们学习Python编程,并利用他们的编程技能、人工智能和其他工具来解决开放式的数学问题,当可能时会手工检查结果。如果成功,这种方法将扩展到更多的班级和年级组。

随着技术的进步和计算机自动化更多任务,教育必须跟上步伐。学生应该学会如何与技术合作,理解如何将人类洞察力与计算能力结合起来。

Paul Parham博士是Sevenoaks学校的数学副主管。

更多信息与资源

– 教育部:独立报告:史密斯关于16岁以上数学教学的审查:报告及政府回应,2017年:

www.gov.uk/government/publications/smith-review-of-post-16-maths-report-and-government-response

– Kiela等人:AI系统在各种能力上的测试成绩相对于人类表现,2023年:

https://ourworldindata.org/grapher/test-scores-ai-capabilities-relative-human-performance

– Lee & Button:在最近更新的预大学数学课程“进一步纯数与技术”(FPT)中编程,2020年:

https://doi.org/10.21100/msor.v18i2.1096

– Lei等人:MACM:利用多代理系统在解决复杂数学问题时进行条件挖掘,2024年:

https://arxiv.org/pdf/2404.04735v2

– Lewkowycz等人:利用语言模型解决定量推理问题,2022年:

https://arxiv.org/pdf/2206.14858v2

– Scarfe等人:人工智能渗透大学考试系统的现实测试:“图灵测试”案例研究,2024年:

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0305354

– Wang等人:自洽性提高了语言模型在解决数学问题时的链式思考能力,ICLR,2022年:

https://arxiv.org/pdf/2203.11171v4

– Wolfram:《数学(学)修复:人工智能时代的教育蓝图》,Wolfram Media Inc,2020年:

www.wolfram-media.com/products/the-maths-fix

– Zhong等人:在GSM8K上实现>97%的成绩:深入理解问题使大型语言模型成为更好的数学文字问题解决者,2024年:

https://arxiv.org/pdf/2404.14963v3

(以上内容均由Ai生成)

关键词: Ai教育数学

你可能还想读

OpenAI加大外部融资力度,未来前景存疑

OpenAI加大外部融资力度,未来前景存疑

快速阅读: OpenAI依赖外部资金支持发展,取消微软独家地位以吸引更多供应商,融资策略带来资金但增加执行风险,数据中心建设面临基础设施不足挑战。 戈吉亚表示:“目标是持续发展,而非成本效益。这些交易具有前瞻性,依赖于仍具不确定性的收入预测 […]

发布时间:2025年11月4日
AWS与Verizon合作扩展光纤网络,推动AI发展

AWS与Verizon合作扩展光纤网络,推动AI发展

快速阅读: AWS与Verizon合作,通过安全、可扩展的云基础设施及高性能网络,推动生成式AI创新,助力各行业大规模构建安全可靠AI应用。 AWS基础设施服务副总裁Prasad Kalyanaraman表示,下一轮创新将由生成式AI推动, […]

发布时间:2025年11月4日
AgiBot利用强化学习革新工业机器人领域

AgiBot利用强化学习革新工业机器人领域

快速阅读: AgiBot的G2机器人依托NVIDIA Jetson Thor T5000模块,实现低于10毫秒延迟运行大型视觉-语言模型,成为实时学习与控制的理想选择。 AgiBot尚未披露其强化学习系统所依赖的计算平台,但鉴于其G2机器人 […]

发布时间:2025年11月4日
Upwork报告AI项目推动增长,AI相关工作显著增加

Upwork报告AI项目推动增长,AI相关工作显著增加

快速阅读: Upwork总裁布朗表示,第三季度公司GSV增长得益于AI领域成功,AI项目客户和专业人士数量分别增长43%和41%。尽管活跃客户数下降7%,但新客户GSV增长7%。 在宏观层面,Upwork总裁兼首席执行官海登·布朗(Hayd […]

发布时间:2025年11月4日
苹果计划采用定制版谷歌Gemini AI升级Siri

苹果计划采用定制版谷歌Gemini AI升级Siri

快速阅读: 苹果计划2026年推出采用谷歌Gemini AI模型的新版Siri,因谷歌提供更优财务条件胜出Anthropic。Gemini将在苹果私有云运行,处理复杂任务。苹果与谷歌合作紧密,但不会强调此关系。苹果AI进展滞后,市值仍突破4 […]

发布时间:2025年11月4日
AI基础设施面临热管理与能耗挑战,xFusion提出解决方案

AI基础设施面临热管理与能耗挑战,xFusion提出解决方案

快速阅读: 企业与超大规模公司正向AI基础设施投入巨资,但面临硬件挑战导致投资回报难以保障。xFusion提出整体策略,通过材料科学和热管理创新,解决数据中心能耗和热管理问题,推出FusionPoD全液冷服务器机柜,实现高效冷却与能效。 企 […]

发布时间:2025年11月4日
OpenAI与AWS达成380亿美元合作,运行ChatGPT

OpenAI与AWS达成380亿美元合作,运行ChatGPT

快速阅读: OpenAI与AWS建立战略伙伴关系,获380亿美元投资,将使用AWS的超大规模GPU资源加速AI研发,协议有效期七年,计划2026年前完成部署。 今日,OpenAI宣布与亚马逊网络服务(AWS)建立战略合作伙伴关系,这将使Ch […]

发布时间:2025年11月4日
OpenAI豪掷380亿美元,与亚马逊签署七年云服务协议

OpenAI豪掷380亿美元,与亚马逊签署七年云服务协议

快速阅读: OpenAI签署380亿美元协议,从亚马逊购买云服务,获数十万英伟达处理器,推动AI模型发展,显示计算能力需求巨大,亚马逊股价创历史新高。 OpenAI 已签署一项为期七年、价值 380 亿美元的协议,从亚马逊公司购买云服务。这 […]

发布时间:2025年11月4日