Teen 用于发现 AI 生成文本的软件刚刚变得个性化
快速阅读: 据《学生科学》称,一名高中生开发了一种新软件,可以更准确地检测文本作者,帮助减少误判学生作弊的情况。该软件通过分析个人写作风格,提高检测精度,并增加透明度以增强信任。
俄亥俄州哥伦布市——标题:俄亥俄州哥伦布市——俄亥俄州哥伦布市——这段文字是人工智能生成的吗?最近这个问题频频被提起。用于检测AI生成文本的软件已经存在,但据张俊(音译)所说,大多数程序都存在一个致命缺陷:缺乏对风格的感知能力。他的新软件旨在填补这一空白。
张俊的程序会留意作者的写作风格特点。然后,它能依据这些特征来验证另一篇文本是否出自同一作者之手。张俊的新软件助力这位来自密西西比州牛津高中的16岁学生入围2025年再生元国际科学与工程博览会决赛。
张俊表示,他的项目灵感来源于看到学生们承认在课堂作业中使用了AI工具。在他的英语课上,他说:“我经常看见学生们用像ChatGPT这样的AI工具完成各种家庭作业。”
解释:什么是生成式AI?
但是过度依赖这些工具会削弱一个人的创造力,这还会削弱他们独立解决问题的能力。他补充说,许多孩子并未正确使用它,引用了一项2025年发表于《社会》杂志的研究。
“我觉得通过我尝试解决这个问题,我可以帮助数百万名教师,也许还能帮助孩子们变得更富有创造力并激发更多创新。”用AI做作业并不罕见。Turnitin程序是一个现有的工具,用于验证谁撰写了某段文字。在它首次推出的一年里,它分析了超过两亿份学生论文。去年,它报告称大约每一百篇论文中有十一篇至少有五分之一的内容使用了AI。每一百篇论文中有三篇使用AI完成了四分之三的内容。这是“绝对不令人惊讶的”,张俊说。
聊天机器人和其他形式的生成式AI是强大的、具有变革性的技术。“显然,AI在教育领域有着积极作用,”他说。但他补充说,许多孩子并未正确使用它。自从2022年11月ChatGPT问世以来,老师们越来越频繁地面临艰难抉择。他们必须判断一篇文章究竟是学生自己写的,还是仅仅向某个聊天机器人提供了提示让它代写的。错误地将某些学生的作业判定为作弊行为会破坏学生对老师的信任。
张俊的新程序旨在减少这种情况的发生。
新意
目前,大多数AI检测器在判断谁或何物撰写了文档时,仅单独分析一段文本。它们寻找特定的AI特征,但它们没有考虑到某人独特的写作风格,张俊说。
张俊·姜研发了一款新型计算机程序以验证文本作者。它弥补了现有软件忽略的空白。
卡罗琳·加德纳/科学探索
他的程序转而分析已知由学生在无AI辅助情况下撰写的文本。怎么做呢?学校已采用浏览器锁定程序,屏蔽对ChatGPT及其他AI写作工具的访问,他指出。老师可在学年初收集学生的写作样本,当时学生们处于锁定模式下,显然无法作弊。之后,老师可用他的新程序对比学生未来的作品与早期样本。
张俊的软件随后审查已知作者的文本,观察此人如何运用标点符号和语法。他们是用清晰的语言、比喻还是可能非常不常见的词汇或术语表达自己的想法?作者是否常用长句或短句,抑或是长短句交替使用?
张俊以副词为例指出:“我发现人们无论是在无意识还是有意识的情况下,副词的位置选择上存在很大差异。”有些人会在句首使用,比如:快速地,我收拾了我的行李。其他人可能会说:我快速地收拾了我的行李。或者我快速地收拾了我的行李。这种副词位置的选择能够区分一位作者与其他作者。
他的软件搜寻某人在写作中的个人风格。然后它在第二篇文本中寻找相同的风格特征——一篇作者身份尚待确认的文本。通过对这两篇文本的对比,它试图确认两者是否出自同一作者之手。
测试文本
训练这个AI模型需要大量写作样本。“感谢老天,我的优秀高中同学们实际上给了我一些他们的作文,”张俊说。这让他得以训练模型了解学生写作的方式。他谨慎地从ChatGPT公开前创作的作品中收集已知作者的样本。他还利用了新闻报道、学术期刊等来源的文本。
“有一篇具体探讨英国大学生写作的文章,”张俊说。这些同样处于聊天机器人时代之前。因此,这些也有众多大学生的大量写作样本,而不仅仅限于高中生。有了这些,他能调整模型以适应不同类型写作及外州作者。
科学家说:模型
为了测试他的模型,他说他采用了“主要为测试与训练分离”的机器学习方法。首先,他用部分数据训练了模型。然后,为了测试模型,他提供了一组新数据,并要求它判断两篇文章是否出自同一作者。
与市面上的作者验证软件相比,张俊的模型更为精准。他报告称“整体提升了25%”。在这个阶段,这些准确率预估是“充满前景的”,他说。但他承认,这一程序以及其他类似程序可能仍不够完全精确。
为了解决这一问题,他添加了一个额外功能:透明性。
新软件尝试确定某些文本的作者。一种方式是观察作者如何运用语法、标点符号及措辞的习惯。它甚至考察简单句与复杂句的比例。
维克拉姆·拉古万希/盖蒂图片社
如果学生的作业被标记为由AI撰写,张俊的模型会阐明得出这一判断的过程。错误难以避免。
“应对错误的最佳策略是坦诚说明为何作出某个决定,”他说。老师会明白模型作出决定的依据——例如,它是基于词汇、语法还是其他类型的一致性问题。然后他们能与学生讨论这些问题。张俊期望这能增进信任。
而且这种信任是相互的。不只是老师信任学生,也是学生对其“可能受到质疑的作品”更加信任老师。
再生元ISEF是一项由科学学会创立并运作的项目(该学会也出版这份杂志)。张俊是来自62个国家或地区的1657名参赛者之一,他们将在第75届ISEF上展开角逐。参与者将在本周末共同分享近九百万美元的奖金。
你有科学问题吗?我们可以帮忙!
在这里提交你的问题,我们可能会在即将到来的《科学探索》杂志中回答它。
(以上内容均由Ai生成)