AI检测工具Pangram测试：准确度与局限性探讨

快速阅读: 近日，Pangram AI推出专检AI生成文本工具，称超越人类专家。测试显示，AI生成内容识别准确率高，但可能误判人类写作。

近日，我在网上看到许多关于抄袭检测工具的讨论，涉及作家从客户那里获得反馈、有人指出某些内容“显然是由AI生成的”，以及人们对人工智能驱动的抄袭检测工具准确性的好奇。最近，我发现了一款名为Pangram AI的工具，它专门用于检测文本是否部分或全部由AI生成，相较于人类生成的内容。Pangram声称自己是唯一能超越人类专家的AI检测器。

CNET是一家提供公正科技内容和实验室评测的网站，建议将其设为Google的首选源。Pangram由Max Spero和Bradley Emi于2023年创立，支持多种语言，并可与Google Classroom和Google Chrome等平台集成。Spero透露，他们的机器学习模型通过分析数百万个AI和人类写作的例子，提取出AI生成文本的关键风格特征。

Pangram的模型只有在确定文本是由AI生成时才会做出预测。公司还进行了多项研究来验证这一方法的有效性，其中包括一天内测试了6万篇新闻文章。Spero进一步解释说，该过程类似于将人类写作的样本与其“合成镜像”——即与人类文档匹配的AI生成文档——进行比较。他们不断训练模型以提高其准确性。

为了亲自测试Pangram的AI抄袭检测功能，我使用了三个文本样本。Pangram提供免费试用服务，每天有五次（每次500字）的免费检测机会，之后需要升级到每月12.5美元的付费账户。注册账号后，用户可以输入或上传文本（最多500字），系统会给出一个分数，标注出可能由AI编写的部分。更多详情可在Pangram的博客上查看。

我的测试分为三步：

1. 上传一篇我曾用AI整理直接引用的文章；

2. 上传一篇完全由AI撰写的草稿；

3. 上传一篇我撰写并请AI精修的已发表文章。

我希望了解Pangram如何识别抄袭，并将其与我的三个文本样本进行对比，因为我清楚每个样本中AI编写内容的真实比例。

第一次尝试结果显示13%的内容可能是由AI生成的。当我查看被标记为最可能“AI抄袭”的部分时，发现这些内容对我来说非常独特，这让我感到意外。然而，我也注意到这些部分包含了几个直接引用的人类文档中的引言。由于我曾让AI帮我从访谈记录中筛选并放置这些引言，我猜测这可能是触发Pangram检测的原因，但无法确定。

Pangram确信13%的文本样本是由AI编写的。实际上，除了让AI帮助整理引用外，这篇文章完全由我本人撰写。

接下来，我尝试了一个纯粹的AI文档——带有一个前提。首先，我让ChatGPT根据我们之前的对话描述我的写作风格，它回答说是“对话式的、反思性的、略带俏皮但深思熟虑的”。随后，我请求ChatGPT以我的口吻写一篇500字的技术文章。上传至Pangram后，结果显示Pangram“强烈相信这份文档包含AI生成的写作”，准确率为99.9%。尽管结果准确，但我仔细检查了为什么Pangram认为我的写作是AI生成的。

Pangram的结果指出，“创造力”、“故事”和“叙述”等词汇在AI生成的文本中出现频率比人类写作高出10到20倍。这些词汇不是日常写作和口语中最基本的词语吗？虽然Pangram正确地识别了我的500字输出是由AI生成的，但其上下文并不完全符合现实。

最后，我将一篇已发表的文章的500字内容上传到ChatGPT，请求它进行精修，然后将结果文本上传到Pangram。这次也被标记为几乎完全由AI生成，准确率为99.3%。但Pangram再次指出了那些要么属于日常语言，要么是原始人类文章中AI改写决定保留的短语和词汇。（这包括该公司自己的口号的一部分。）

Pangram将此文本样本标记为99.3%可能是由AI生成的。事实上，这篇文章除了经过ChatGPT的精修外，完全由我本人撰写。

我难免会思考，庞格拉姆平台在识别由AI撰写的内容时，是否会受到文章本身是AI生成的文字还是AI聊天机器人常用表达的影响。以我的第三个例子来说——尽管AI回应中仍保留了我原文章的许多元素，但庞格拉姆却将整个内容标记为AI创作。虽然我上传到庞格拉姆的所有内容确实来自ChatGPT，但ChatGPT的输出并非完全由其独立完成——只是在那里进行了完善。您明白我的意思吗？

是否应该尝试庞格拉姆？

这取决于谁在使用庞格拉姆、使用目的以及他们在做出最终判断前是否复核了平台的结果。我认为庞格拉姆可以批量检测AI生成的内容，但也可能完全误判何为类似AI生成的输出。这导致了平台基于模式识别而非上下文来诊断看似AI生成的写作。

庞格拉姆旨在解决“人工内容审核成本高且耗时”的问题。但请听我说：使用该平台最终还是要依赖人类来判断某人的写作是否涉及AI抄袭。

例如，质疑某人的写作是否比平时更正式……或者他们是否在一篇1000字的文章中多次拼写“简历”为“résumé”。

写作是一种敏感而主观的艺术形式，在我看来，任何技术软件都无法真正理解它。

此外，数据本身也是主观的。因此，当创建一个试图将写作划分为极端二元对立的平台时，我们实际上忽视了写作的意义和作家的真实能力。

虽然我尊重庞格拉姆试图以商业模式拆解虚假信息的努力，但我认为需要一种更加细腻的方法，而不是通过缺乏写作主观性的数据分析做出广泛而笼统的陈述。

(以上内容均由Ai生成)