AI检测工具Pangram测试:准确度与局限性探讨
快速阅读: 近日,Pangram AI推出专检AI生成文本工具,称超越人类专家。测试显示,AI生成内容识别准确率高,但可能误判人类写作。
近日,我在网上看到许多关于抄袭检测工具的讨论,涉及作家从客户那里获得反馈、有人指出某些内容“显然是由AI生成的”,以及人们对人工智能驱动的抄袭检测工具准确性的好奇。最近,我发现了一款名为Pangram AI的工具,它专门用于检测文本是否部分或全部由AI生成,相较于人类生成的内容。Pangram声称自己是唯一能超越人类专家的AI检测器。
CNET是一家提供公正科技内容和实验室评测的网站,建议将其设为Google的首选源。Pangram由Max Spero和Bradley Emi于2023年创立,支持多种语言,并可与Google Classroom和Google Chrome等平台集成。Spero透露,他们的机器学习模型通过分析数百万个AI和人类写作的例子,提取出AI生成文本的关键风格特征。
Pangram的模型只有在确定文本是由AI生成时才会做出预测。公司还进行了多项研究来验证这一方法的有效性,其中包括一天内测试了6万篇新闻文章。Spero进一步解释说,该过程类似于将人类写作的样本与其“合成镜像”——即与人类文档匹配的AI生成文档——进行比较。他们不断训练模型以提高其准确性。
为了亲自测试Pangram的AI抄袭检测功能,我使用了三个文本样本。Pangram提供免费试用服务,每天有五次(每次500字)的免费检测机会,之后需要升级到每月12.5美元的付费账户。注册账号后,用户可以输入或上传文本(最多500字),系统会给出一个分数,标注出可能由AI编写的部分。更多详情可在Pangram的博客上查看。
我的测试分为三步:
1. 上传一篇我曾用AI整理直接引用的文章;
2. 上传一篇完全由AI撰写的草稿;
3. 上传一篇我撰写并请AI精修的已发表文章。
我希望了解Pangram如何识别抄袭,并将其与我的三个文本样本进行对比,因为我清楚每个样本中AI编写内容的真实比例。
第一次尝试结果显示13%的内容可能是由AI生成的。当我查看被标记为最可能“AI抄袭”的部分时,发现这些内容对我来说非常独特,这让我感到意外。然而,我也注意到这些部分包含了几个直接引用的人类文档中的引言。由于我曾让AI帮我从访谈记录中筛选并放置这些引言,我猜测这可能是触发Pangram检测的原因,但无法确定。
Pangram确信13%的文本样本是由AI编写的。实际上,除了让AI帮助整理引用外,这篇文章完全由我本人撰写。
接下来,我尝试了一个纯粹的AI文档——带有一个前提。首先,我让ChatGPT根据我们之前的对话描述我的写作风格,它回答说是“对话式的、反思性的、略带俏皮但深思熟虑的”。随后,我请求ChatGPT以我的口吻写一篇500字的技术文章。上传至Pangram后,结果显示Pangram“强烈相信这份文档包含AI生成的写作”,准确率为99.9%。尽管结果准确,但我仔细检查了为什么Pangram认为我的写作是AI生成的。
Pangram的结果指出,“创造力”、“故事”和“叙述”等词汇在AI生成的文本中出现频率比人类写作高出10到20倍。这些词汇不是日常写作和口语中最基本的词语吗?虽然Pangram正确地识别了我的500字输出是由AI生成的,但其上下文并不完全符合现实。
最后,我将一篇已发表的文章的500字内容上传到ChatGPT,请求它进行精修,然后将结果文本上传到Pangram。这次也被标记为几乎完全由AI生成,准确率为99.3%。但Pangram再次指出了那些要么属于日常语言,要么是原始人类文章中AI改写决定保留的短语和词汇。(这包括该公司自己的口号的一部分。)
Pangram将此文本样本标记为99.3%可能是由AI生成的。事实上,这篇文章除了经过ChatGPT的精修外,完全由我本人撰写。
我难免会思考,庞格拉姆平台在识别由AI撰写的内容时,是否会受到文章本身是AI生成的文字还是AI聊天机器人常用表达的影响。以我的第三个例子来说——尽管AI回应中仍保留了我原文章的许多元素,但庞格拉姆却将整个内容标记为AI创作。虽然我上传到庞格拉姆的所有内容确实来自ChatGPT,但ChatGPT的输出并非完全由其独立完成——只是在那里进行了完善。您明白我的意思吗?
是否应该尝试庞格拉姆?
这取决于谁在使用庞格拉姆、使用目的以及他们在做出最终判断前是否复核了平台的结果。我认为庞格拉姆可以批量检测AI生成的内容,但也可能完全误判何为类似AI生成的输出。这导致了平台基于模式识别而非上下文来诊断看似AI生成的写作。
庞格拉姆旨在解决“人工内容审核成本高且耗时”的问题。但请听我说:使用该平台最终还是要依赖人类来判断某人的写作是否涉及AI抄袭。
例如,质疑某人的写作是否比平时更正式……或者他们是否在一篇1000字的文章中多次拼写“简历”为“résumé”。
写作是一种敏感而主观的艺术形式,在我看来,任何技术软件都无法真正理解它。
此外,数据本身也是主观的。因此,当创建一个试图将写作划分为极端二元对立的平台时,我们实际上忽视了写作的意义和作家的真实能力。
虽然我尊重庞格拉姆试图以商业模式拆解虚假信息的努力,但我认为需要一种更加细腻的方法,而不是通过缺乏写作主观性的数据分析做出广泛而笼统的陈述。
(以上内容均由Ai生成)