学术评判?现在,这就是魔力
快速阅读: 据《旺赫》称,本文探讨了“学术判断”在学术不端行为中的应用及其局限性,特别是AI检测工具的不可靠性导致学生难以挑战指控。作者质疑将不可挑战的决定范围扩大到学生行为的合理性,并呼吁重新审视相关政策的公正性与有效性。
每天都在学习。我认为自己明白了在案件、程序、申诉或投诉中什么是“学术判断”,什么不是。这很重要,因为我的理解是,学生可以对各种决定提出质疑和申诉,甚至可以上诉至英格兰和威尔士的独立仲裁办公室(OIA),但前提是这些决定与学术判断无关。因此,在一个简单的硬币分拣器中,“在我看来这篇论文是一流的”无法被质疑,但“他们因为我没打人就把我赶出来了”是可以质疑的。
我经常想知道,当我们考虑到消费者保护法的要求——即服务必须以合理的技能和谨慎进行——以及不可挑战的学术判断概念在工作量背景下的相互作用时,这个立场是否站得住脚。在推特盛行的时候,我经常看到学术人员抱怨他们大学里的不切实际的工作量模型,这个模型暗示一篇2000字的论文可以在短短15分钟内阅读、评分并反馈。加上大量通过延期和适应提交的作业迟交,完成任务的压力,NSS问题产生的按时完成的压力,更广泛的工作量问题以及在评分罢工期间显得愈发薄弱的审查过程(这些过程往往在评分抵制期间被撕毁或进一步稀释),我想象着一名法官评估学生的案子时会说类似这样的话:“要想使用你的免责卡,阳光,你需要表现出更多的……谨慎。”
但这涉及到的是以一种非学术上可辩护的方式做出学术判断。今天下午,我与一位学生会官员就学术不端行为进行了交谈,这是基于他们参加的一个由OfS主办的关于AI的网络研讨会,现在我对这个问题感到更加困惑了。
不要过关。先说重点。《2004年高等教育法》规定了一个机构来审查投诉,取代旧的“访问者”系统,并包含以下内容:
这个概念在英国法律中既未进一步界定也未在其他地方提及——但它有着深厚的历史渊源。在中世纪的大学里,学者享有自主评判的权利,随着启蒙时期大学发展正式的考试制度,这一权利获得了法律认可。
到了20世纪,学术判断从外部干预中得到了法律保护,例如克拉克诉林肯郡和亨伯赛德大学(2000年)这样的里程碑式案件确立了法院不应干涉学术评估,除非存在程序不公平的情况:
大多数人理解的原则是,专门的学术专业知识使学者能够独立评估学生表现并维护教育标准,不受政治或经济压力的影响。
OIA采纳了立法中的这条内容,并进一步定义如下:
它还帮助性地列出了一些不属于其管辖范围的事情:
我不确定“什么算作证据,什么不算作证据”是否充分考虑或纳入了我上面讨论的消费者保护法问题——但无论如何,它还是能自圆其说的。
在David Palfreyman关于这个概念在消费时代是否仍然成立的论文中,他认为学术判断应适用于需要专门知识的主观评估——如评定学生作业、设计课程和评估学习成果。
教育机构和法院通常认为这些问题超出外部审查范围,以保护学术自由与职业自主性——因为学者具备独特的能力,可以做出微妙且依赖上下文的学术质量判断,而外部人士缺乏有效评估这些判断的专业知识。
在另一边,他主张学术判断不应保护事实认定、程序错误或行政决策免受审查。当机构声称他们是否正确应用了自己的规则或是否遵循了公平程序时,这些问题超出了受保护的学术判断范畴。
教育机构和法院通常认为这些问题超出外部审查范围,以保护学术自由与职业自主性——因为学者具备独特的能力,可以做出微妙且依赖上下文的学术质量判断,而外部人士缺乏有效评估这些判断的专业知识。
宗教还是审美?
但在OIA的30.4条关于其方案规则的指引中,有一条令人好奇的条款:
如果这感觉像是折中,那是因为它是。“是否”和“程度”这两个概念有很大的不同,因为可以看到“你是否打了那个学生”是关于权衡事实的问题,但“你造成了多大的伤害”可能需要专家的医学判断。但某种程度上,最后一项子条款让这种折中达到了顶点——OIA坚持要求如果有人使用了那个判断,那么他们必须提供一些实际证据。
如果没有提供,那么这就是一个可上诉的过程问题。
在2025年的今天,30.4条开始显得有些过时了。当有人能用一支红笔指出一份学生的试卷和另一份试卷的抄袭之处时,我觉得大家都会同意这算是证据。
同样,当Turnitin能够搜索整个互联网和数据库中所有已提交的其他论文时,我觉得Turnitin的相似度分数——连同任何相关的报告突出显示的文本片段——都算作证据。
但生成式人工智能是一个完全不同的东西。如果这个博客过度使用了“促进”和“强调”这两个词,为所有小标题使用了大写,还设置了许多句子使用“通过……然后可以……”的形式,不仅经常阅读论文的人会“闻”出AI的味道,而且它更有可能被那些声称可以检测我是否使用的软件发现。
这感觉不像证据。这是基于模式的猜测。即使我们忽略关于“误报”主要针对谁的研究结果,我也可能只是喜欢使用那些短语和风格。在这种情况下,我可能会因为一篇糟糕的论文而得到低分,但感觉不对劲的是,有人可以——无需挑战——决定我是否“犯了作弊罪”,从而受到警告、分数上限或其他任何形式的惩罚。
而且没错,这一切都回到了一个不可动摇的事实——未经监督的异步评估任何数字资产作为评估学生学习的方式将永远不再可靠。没有办法证明它们是由学生制作的,即使它们确实是,也越来越清楚地表明,这并不一定意味着他们在制作时学到了什么。
但旧习惯和大规模教育的经济学似乎正在顽强地延续。因此,在此期间,越来越多的学生在无法挑战的情况下被“学术”判定为“做了某事”,在程序和法律框架下,这显然是不可能的。基于与宗教和美学相关的概念来判断某人是否做了某事,显然不可能是对的。
案例分析
我在OIA的案例总结库存中看不到任何能揭示其方案规则中可能或可能不被视为“证据”的内容。
我不知道它是否会以“提供方所说的任何内容都算作证据”为起点,或者如果一个案件摆在其面前,它是否会有某种客观测试。
但我知道的是,一整套学术不端行为政策是多么混乱和矛盾。
我大约一个小时前在网上找到的第一个学术不端行为政策说,未经明确允许使用AI被视为学术不端行为。这合情合理。它还具体说明,即使允许使用AI,未申报也会构成不端行为。这也合情合理。
它将学术判断定义为学术工作人员对作品本身的质量或所应用的标准所做的决定。这合情合理。它还特别指出,学术判断不适用于事实认定——它适用于解释,比如评估相似度报告或确定学生的工作标准是否显著偏离其平时的输出。这也合情合理。
但在另一个部分,有另一句话——说评估内容被认为是由AI生成的程度是一个学术判断的问题。
这个原则上存在的问题是,伟大的历史学家不一定就是LLM专家,也不是某种学术版的科伦坡。学术领域的专长并不能等同于检测AI生成内容的专长。
但实践中存在的问题是关键。AI检测工具所提供的“证据”极不可靠,因此大学在其“学术判断”中使用它们会使被指控使用AI的学生陷入不可能的局面——他们无法有意义地挑战指控,因为大学已经将其定义为不可挑战的,尽管证据可能从根本上是有缺陷的。
由不可靠技术支持的学术判断实际上变得不受实质性上诉的影响,将举证的负担置于学生身上,来对抗可能仅仅基于算法推测或写作风格主观印象的“专家判断”。
但实践中存在的问题是关键。AI检测工具所提供的“证据”极不可靠,因此大学在其“学术判断”中使用它们会使被指控使用AI的学生陷入不可能的局面——他们无法有意义地挑战指控,因为大学已经将其定义为不可挑战的,尽管证据可能从根本上就有缺陷。
这些政策充满了此类内容。一项政策采取了折中态度,表示是否此类AI使用构成学术不端行为“很可能涉及学术判断”,特别是在需要评估AI生成内容在整个提交内容中的“程度和影响”时。油?水?摇一摇。
另一项政策在确定抄袭或不当行为的“程度和性质”时提到了“学术判断”,包括AI的使用——其他部分的政策明确表示,如果得到“证据”的支持,则这些内容不得被质疑。
这些政策充满了此类内容。一项政策采取了折中态度,表示是否此类AI使用构成学术不端行为“很可能涉及学术判断”,特别是在需要评估AI生成内容在整个提交内容中的“程度和影响”时。油?水?摇一摇。
我现在正在看的一项政策说,判断学生是否不当使用了AI工具很可能会涉及学术判断,特别是在评估作品的原创性和AI生成内容是否符合所需的学术标准时。那么,判断是学生是否作弊,还是论文是否糟糕?为方便起见,两者皆可。
这些政策充满了此类内容。一项政策采取了折中态度,表示是否此类AI使用构成学术不端行为“很可能涉及学术判断”,特别是在需要评估AI生成内容在整个提交内容中的“程度和影响”时。油?水?摇一摇。
暂时抛开这个系统明显的不公之处——它似乎对学生的思考方式不感兴趣,但却痴迷于他们用来构建传达这些想法的资产的方法——并且在当下这种方法多么多余。
游戏结束。
由于种种原因,我一直认为“学术判断”作为一种避免挑战和审查的方式是个问题。律师们在2000年代因专业问责期望的变化而丧失了几个世纪以来免于疏忽索赔的豁免权。
在医学领域,“专业人士不应落后于其所在行业中其他通常勤奋且聪慧的成员”,并且必须“警惕潜在的风险”,这一标准现在广泛适用于各个职业,而学者则显得格格不入,通常是不合格的。
也许这个原则勉强还能挽救——尽管校内评估、校外评审、工作量建模等方面的糟糕状态确实削弱了“我们知道得更好”的脆弱理由。但我绝对确信的是,将不可挑战的决定范围扩展到学生是否违反了一套AI不当行为规则,不仅是滑坡效应,也是加速魔法力量消亡的捷径。
(以上内容均由Ai生成)