采样 vivas 在打击 AI 作弊方面至关重要

快速阅读: 据《泰晤士高等教育》最新报道，上周披露显示，英国使用生成式AI评估的学生比例从53%升至88%。这促使大学重新思考评估方法，尤其是口头答辩，以确保学生积极参与和理解。尽管大学已采取AI政策，但仍需解决检测和公平性问题。口头答辩和抽样审核结合书面评估，有助于确保学术诚信和学生理解，而非单纯评估文本生产。

上周的披露显示，英国使用生成式人工智能工具进行评估的学生比例在一年内从53%跃升至88%，这再次提醒了我们那些担忧如何保护评估标准的人。高等教育通常被视为一种认证系统：学生投资学位以获得职业机会。然而，如果评估定义了一个学位的价值，那么当技术挑战我们传统的评估模式时会发生什么？生成式人工智能迫使大学重新思考不仅仅是他们如何评估学习，还有如何确保有意义的学生参与。几个世纪以来，口试一直是标准形式，要求学生通过辩论来捍卫他们的知识。如今，口头答辩仍然是博士学位考试的核心部分，测试批判性思维和思想的所有权——这些技能在工作中同样受到重视。然而，随着19世纪本科生数量的增长，书面考试成为唯一的可扩展解决方案，允许远程评估，并提供一个可验证的记录用于校对和质量保证。然而，这种模式的可靠性越来越值得怀疑。合同作弊已经允许学生绕过学习，放弃他们的作者身份和对学习内容的认知参与。对于那些被迫参与此类行为的学生来说，生成式人工智能大大降低了参与门槛。更根本的是，自动化书面工作的可能性质疑了书面评估在大学认证中的意义。

公平地说，自2022年底ChatGPT发布以来，大学迅速做出了回应。许多大学引入了针对评估设计的AI政策。例如，在英国，伦敦大学学院（UCL）的三类框架（2023年推出）将评估分为禁止使用AI、辅助角色下允许使用AI以及任务中不可或缺的部分。但尽管这些政策明确了可接受的使用方式，它们并不能确保学生主动参与学习。与传统的“逐字”剽窃不同，生成式人工智能生成定制文本，使得检测变得困难。一些工具声称能识别AI撰写的文本，但其准确性尚存疑。AI倾向于幻觉来源并犯错误，这通常被认为是明显的标志，但人类也会这样做，而且随着AI模型的改进，这种情况正变得越来越少。

恢复到传统的面对面书面考试可以确保诚信，但完全依赖它们是短视的做法。我们不应抛弃新冠疫情期间评估多样化带来的包容性，拥抱课程作业和开卷、在线考试。此外，雇主不会因为使用AI而惩罚毕业生；有效利用它的毕业生将在职场中占优势。因此，大学必须准备让学生批判性和负责任地使用AI。所有这些都让我们重新关注口头答辩。许多英国大学仍保留口头答辩选项，但主要用于调查书面评估中的学术不端行为。然而，口头评估提供了更多功能和用途，将评估的重点从监管AI使用转移到评估理解上，确保学生参与想法。讨论式学习已在高等教育中通过小组辅导和研讨会得以实施。这一点在牛津-剑桥体系中尤为突出，学生在最终评估前与导师交流自己的理解和填补空白。然而，这些模式资源密集且难以推广。一些机构正在将口头答辩重新引入本科评估以维护诚信。例如，南澳大利亚大学据报道在某些科目中用结构化的口头评估取代了书面考试，显著减少了不当行为。但对于大多数大学来说，在不增加教职工负担的情况下采用口头评估几乎是不可能的——尤其是在学生与教师比例不断增长的时代，资金压力迫使裁员。

一个实际的解决方案是采用抽样口头答辩审核书面评估。被选中的学生——可能是总数的10%——会在事先被告知，确保他们通过深入参与材料来准备。在此基础上，现有的审核流程可以通过审查部分学生的作业来确保评分的一致性。口头抽样主要呈现给教职员工和学生，不仅作为AI检测工具，更是为学生提供展示理解能力和解释自己想法的机会。它会鼓励他们通过将评估从单向提交转变为有意义的对话来承担自己的工作。然而，如果口头答辩揭示了学生书面作品与其表现出的知识之间存在重大差距，那么机构的应对措施是合理的。需要进一步讨论如何在现有政策内处理此类情况，同时保持公平、学术诚信和学生支持。这包括制定明确的指导方针，处理特殊情况和合理调整（例如灵活安排时间或替代格式，如录制回复）。符合条件的包括有残疾、语言障碍或焦虑相关状况的学生。

世界银行在尼日利亚的一个项目中的初步发现表明，AI导师可以在六周的干预中帮助学生取得相当于两年的学习成果。在另一项大规模试验中，与AI支持的导师合作的学生更有可能掌握主题。在这两种情况下，深思熟虑、由教育者驱动的干预至关重要。大学不应仅仅对新技术做出反应，而应为其负责任的使用设定标准。我们必须问自己，我们是在评估文本生产还是真正的理解。抽样的口头答辩审核可以帮助确保评估的是理解而非文本生产。

邓肯·布鲁姆比和安娜·科克斯是伦敦大学学院人机交互专业的教授。阿迪瓦特·萨卡尔是剑桥大学的附属讲师，也是伦敦大学学院的名誉讲师。桑迪·戈尔德是卡迪夫大学计算机科学与信息学学院的学术人员。

(以上内容均由Ai生成)