“含糊不清、令人困惑,并且对改进我的工作没有任何帮助”:AI 如何破坏同行评审
快速阅读: 据《对话 (澳大利亚)》称,本文讲述了作者在同行评审过程中收到奇怪评论的经历,怀疑这些评论可能由人工智能生成。作者通过对比AI模型输出与评审评论发现相似之处,但没有确凿证据。文章强调了对AI在同行评审中使用的谨慎监管需求,以及确保透明度和责任的重要性。
年初时,我在同行评审过程中收到了我对一篇学术论文的评论,注意到一些奇怪的事情。我的研究重点是确保使用可信的证据来指导政策、实践和决策。我经常与世界卫生组织等团体合作,进行系统性审查以指导临床和公共卫生指南或政策。我提交的这篇论文是关于系统性审查的执行。我注意到的情况让我开始关注人工智能在科研过程中的作用越来越大。为社区服务的同行评审是学术出版的基础,确保研究在发表和传播前经过严格审查。在这个过程中,研究人员向期刊提交他们的作品,编辑邀请专家同行提供反馈。这对所有参与者都有好处。对于同行评审者来说,在申请资金或晋升时,这被认为是对社区的一种贡献,因此是有利的。对于研究人员来说,这促使他们澄清论点,解决不足,以证明其工作值得发表。对于公众来说,同行评审确保了研究结果的可信度。即使在今年一月收到的手稿评论初看时也显得很奇怪。首先,语气过于统一和泛泛。而且缺乏深度、细微差别或个性。评审者没有提供页码或行号,也没有具体指出需要改进的地方来指导我的修改。例如,他们建议我“删除冗余解释”。然而,他们并没有指出哪些解释是多余的,甚至没有说明这些解释出现在手稿的哪个部分。他们还建议我以一种奇怪的方式排列参考文献,这种做法不顾期刊的要求。他们提供了关于不存在的小标题的评论。尽管期刊不要求“讨论”章节,但同行评审者还是提出了以下建议来改善我并不存在的讨论:“解决未来方向以进一步完善[论文内容]将增强论文的前瞻性视角”。他们还建议我以一种奇怪的方式排列参考文献,这种做法不顾期刊的要求。他们提供了关于不存在的小标题的评论。ChatGPT关于手稿的输出与同行评审者的评论相似。迪亚戈·托马齐尼/ Shutterstock测试我的怀疑为了测试我的怀疑,即评审至少部分是由人工智能撰写的,我将自己手稿上传到了三个人工智能模型——ChatGPT-40、Gemini 1.5 Pro和DeepSeek-V3。然后,我比较了同行评审的评论与这些模型的输出。例如,同行评审者关于摘要的评论如下:ChatGPT-40关于摘要的输出如下:同行评审者关于方法的评论如下:ChatGPT-40关于方法的输出如下:但是最大的警示信号是,同行评审者反馈与我提交手稿的期刊副编辑反馈之间的差异。副编辑的反馈清晰、有指导意义且有帮助,而同行评审者的反馈模糊、令人困惑,且无助于改进我的工作。我直接向主编表达了我的担忧。值得赞扬的是,他们立即感谢我指出了问题并记录了我的调查——他们说,这“令人担忧且揭示了一些问题”。期刊副编辑关于手稿的反馈清晰、有指导意义且有帮助。米哈伊尔·尼洛夫/ Pexels需要仔细监督我没有确凿的证据表明我的手稿同行评审是由人工智能生成的。但同行评审者留下的评论与人工智能模型的输出之间的相似之处非常显著。人工智能模型使研究变得更快速、更简便、更易获取。然而,它们作为辅助同行评审的工具需要谨慎监管,目前关于人工智能在同行评审中使用的指导意见不一,其效果也不明确。如果要将人工智能模型用于同行评审,作者有权被告知并选择是否退出。评审者也需要披露他们在评审中使用了人工智能。然而,实施这一规定仍是个问题,需要由期刊和编辑负责,以确保不当使用人工智能模型的同行评审者被标记出来。人工智能模型使研究变得更快速、更简便、更易获取。然而,它们作为辅助同行评审的工具需要谨慎监管,目前关于人工智能在同行评审中使用的指导意见不一,其效果也不明确。我将我的研究提交给该领域的同行专家进行“专业”评审,却收到了最终未能改进我工作的人工智能生成反馈。如果我毫无质疑地接受了这些评论——如果副编辑没有提供如此出色的反馈——这种情况很可能未被发现。我的工作可能未经充分审查就被接受发表,并以“事实”的形式传播给公众。
(以上内容均由Ai生成)