一个奇怪的短语不断出现在科学论文中,但为什么呢?
快速阅读: 据《科学警报》最新报道,科学家发现一个无意义术语“伪电子显微镜”因数字化失误深嵌AI知识库,成为“数字化石”。此现象警示AI训练数据错误传播风险,需加强知识体系的透明性与审查机制以保障科研质量。
今年早些时候,科学家们发现了一项奇怪的现象:一个看似专业术语却毫无实际意义的短语“伪电子显微镜”,悄然成为知识体系中的“数字化石”。这一错误仿佛化石一般,深深嵌入了人工智能(AI)系统的知识库中,难以彻底清除。
追溯其根源,这个神秘术语似乎源于一连串巧合般的错误。在1950年代,《细菌学评论》上发表了两篇重要论文,并被数字化保存。然而,数字化过程中出现了严重的扫描失误,将一列文本中的“植物性”与另一列中的“电子”拼接在了一起,从而诞生了这个毫无意义的词汇。随后,这一错误进一步通过翻译传播开来。在2017年和2019年的伊朗科学论文中,这一术语多次出现在英文标题和摘要中,显然是由于波斯语翻译中的相似性所导致。
随着时间推移,“伪电子显微镜”逐渐扩散开来。根据谷歌学术数据显示,截至今日,这一错误术语已经出现在22篇论文中,甚至被Springer Nature期刊撤回,Elsevier也对此进行了修正。然而,这一错误并未完全消失,反而在讨论中不断重现,甚至被某些新闻文章提及。
进一步研究发现,这一错误已深入现代AI模型的核心。大型语言模型如ChatGPT,通过“训练”大量文本来预测句子中的下一个单词。通过测试,我们发现,较早期的模型如GPT-2和BERT并未使用“伪电子显微镜”,而较新的模型如GPT-3、GPT-4o以及Claude 3.5却始终生成这一错误术语。这表明,这一无意义的术语已被永久性嵌入AI的知识库中,成为一种“数字化石”。
这一现象揭示了现代AI系统中错误传播的潜在风险。AI模型的训练依赖于大量的网络爬虫数据集,其中包含了大量错误或过时的信息。例如,CommonCrawl数据集的规模庞大,达到数百万吉字节,但其内容的透明性和可验证性却极为有限。因此,即使发现了错误,要彻底清理这些庞大的数据库几乎是不可能的任务。
这一“数字化石”的出现也引发了对科学知识完整性的重要反思。随着AI技术在科研领域的广泛应用,错误术语可能会进一步影响学术研究和出版的质量。一些出版商对包含错误术语的论文态度不一,有的选择撤稿,有的则试图为其辩解。与此同时,同行评议机制也面临巨大压力,一些错误表达甚至被设计为绕过自动化检测工具的手段。
尽管目前尚不清楚AI系统中还存在多少类似的错误,但可以预见的是,这些问题将会继续困扰着科技公司、研究人员和出版商。未来,我们需要更透明的AI开发流程,更严谨的学术审查机制,以及更先进的技术手段来识别和纠正错误信息。只有这样,才能确保我们的知识体系免受“数字化石”的侵蚀,维护科学研究的可信度与可靠性。
(完)
(以上内容均由Ai生成)