AI 同行评审被一些人称为“不可避免的”,被其他人称为“灾难”
快速阅读: 据《心灵很重要》称,《自然》杂志报道,人工智能用于论文评审引发争议。尽管7%至17%的评审报告疑似被AI大幅改动,但AI也能辅助查错,提高效率。然而,调查显示,多数科学家认为AI难以实现类人思维,其根本局限性和幻觉问题仍需关注。
在《自然》期刊上,科学作家米里亚姆·纳达夫报道指出,以聊天机器人或大型语言模型(LLMs)形式呈现的人工智能正越来越多地用于论文评审。一些科学家对这一发展方向感到担忧:无休止的进步?一项研究发现,2023年和2024年提交至人工智能会议的同行评审报告中,7%至17%的报告显示出被大型语言模型“大幅改动”的痕迹。纳达夫指出,有人认为人工智能同行评审不可避免,而另一些人则视其为“灾难”。
鉴于聊天机器人因幻觉现象和模型崩溃问题而广受批评,这里存在一个风险:在一个鲜有人关注的世界里,一个人工智能评审可能严重偏离事实,但不会立即引起注意。因此,数据库中的错误可能在不知不觉中累积。
关于优缺点的辩论似乎笼罩着一种无奈的气息:是的,写作就是思考。但正因为如此,整个辩论提出了一个问题:同行评审中有多少原创思想?它最终有什么目的?普通人可能会公正地向科学家提问,如果你不打算阅读文章,为什么还要撰写相关的内容?如果你打算阅读它,为什么还需要聊天机器人来撰写评论?
同行评审起源于20世纪科学大发展的时期。值得一提的是,1879年至1955年的阿尔伯特·爱因斯坦在2005年发表三篇开创性物理学论文时,他的审稿人只有《物理学年鉴》的编辑们,其中一些人本身就是诺贝尔奖得主。
人工智能的趋势或许能引发一场有益的讨论,即同行评审究竟在做什么?有没有更优的方式?一些人正在尝试,比如,付费公开同行评审,以缓解时间和敏感性问题。纳达夫提到的一种新方法是利用人工智能——不是生成评审内容——而是为已写成的材料提供常规反馈。她提及的几款AI程序能够识别模糊不清的句子、错误的事实或存疑的引用。因此,科学家既能节省语法检查、事实核实等时间,又能专注于工作。如果幸运的话,这就是两全其美的最佳方案。
在其他消息中,人工智能无论如何都不可能接管科学。与此同时,在主流科普媒体未曾预料的发展中,科学作家本·特纳在LiveScience网站上告知我们,“76%的科学家表示,扩展大型语言模型‘不太可能’或‘非常不可能’带来像人类一样思考的机器。”这与我们多年来从山姆·奥特曼和开放人工智能那里听到的几乎完全相反:这相当直接,甚至有些悲观。
但接受调查的475位人工智能研究人员正面对一个现实:用于生成合理同行评审或文章的聊天机器人架构存在根本局限性。这种风险称为模型崩溃。另一个问题是幻觉——即所谓的“太空熊问题”,系统陷入困境时会随意编造内容。因此,人类审稿人的角色除了被忽视外,不存在其他风险。
(以上内容均由Ai生成)