一个奇怪的短语不断出现在科学论文中，但为什么呢？

发布时间：2025年4月25日来源：szf

快速阅读: 据《科学警报》最新报道，科学家发现一个无意义术语“伪电子显微镜”因数字化失误深嵌AI知识库，成为“数字化石”。此现象警示AI训练数据错误传播风险，需加强知识体系的透明性与审查机制以保障科研质量。

今年早些时候，科学家们发现了一项奇怪的现象：一个看似专业术语却毫无实际意义的短语“伪电子显微镜”，悄然成为知识体系中的“数字化石”。这一错误仿佛化石一般，深深嵌入了人工智能（AI）系统的知识库中，难以彻底清除。

追溯其根源，这个神秘术语似乎源于一连串巧合般的错误。在1950年代，《细菌学评论》上发表了两篇重要论文，并被数字化保存。然而，数字化过程中出现了严重的扫描失误，将一列文本中的“植物性”与另一列中的“电子”拼接在了一起，从而诞生了这个毫无意义的词汇。随后，这一错误进一步通过翻译传播开来。在2017年和2019年的伊朗科学论文中，这一术语多次出现在英文标题和摘要中，显然是由于波斯语翻译中的相似性所导致。

随着时间推移，“伪电子显微镜”逐渐扩散开来。根据谷歌学术数据显示，截至今日，这一错误术语已经出现在22篇论文中，甚至被Springer Nature期刊撤回，Elsevier也对此进行了修正。然而，这一错误并未完全消失，反而在讨论中不断重现，甚至被某些新闻文章提及。

进一步研究发现，这一错误已深入现代AI模型的核心。大型语言模型如ChatGPT，通过“训练”大量文本来预测句子中的下一个单词。通过测试，我们发现，较早期的模型如GPT-2和BERT并未使用“伪电子显微镜”，而较新的模型如GPT-3、GPT-4o以及Claude 3.5却始终生成这一错误术语。这表明，这一无意义的术语已被永久性嵌入AI的知识库中，成为一种“数字化石”。

这一现象揭示了现代AI系统中错误传播的潜在风险。AI模型的训练依赖于大量的网络爬虫数据集，其中包含了大量错误或过时的信息。例如，CommonCrawl数据集的规模庞大，达到数百万吉字节，但其内容的透明性和可验证性却极为有限。因此，即使发现了错误，要彻底清理这些庞大的数据库几乎是不可能的任务。

这一“数字化石”的出现也引发了对科学知识完整性的重要反思。随着AI技术在科研领域的广泛应用，错误术语可能会进一步影响学术研究和出版的质量。一些出版商对包含错误术语的论文态度不一，有的选择撤稿，有的则试图为其辩解。与此同时，同行评议机制也面临巨大压力，一些错误表达甚至被设计为绕过自动化检测工具的手段。

尽管目前尚不清楚AI系统中还存在多少类似的错误，但可以预见的是，这些问题将会继续困扰着科技公司、研究人员和出版商。未来，我们需要更透明的AI开发流程，更严谨的学术审查机制，以及更先进的技术手段来识别和纠正错误信息。只有这样，才能确保我们的知识体系免受“数字化石”的侵蚀，维护科学研究的可信度与可靠性。

（完）

(以上内容均由Ai生成)