用于解读人类语言神经科学的 AI 算法
快速阅读: 据《实时科学》称,科学家利用人工智能模型Whisper研究人类大脑语言处理机制,发现其与大脑活动的统计特性相符。该研究通过分析癫痫患者大脑植入电极的数据,揭示了大脑在语言理解和生成中的区域分工与协作模式,为认知科学研究提供新视角。
科学家们利用一种名为大型语言模型(LLMs)的人工智能技术,揭示了关于人类大脑如何理解和生成语言的新见解。(图片来源:Yuichiro Chino/Getty Images)
这项研究背后的科研人员通过观察人工智能模型将音频转录为文本的方式,能够比传统模型更精确地绘制对话期间的大脑活动图谱。传统模型通常会编码特定的语言结构特征,如音素(构成单词的基本声音)和词性(如名词、动词和形容词)。然而,这项研究使用的模型——Whisper,接受了音频文件及其文本转录作为训练数据,以将音频映射到文本上。Whisper利用这种映射的统计数据来“学习”从未听过的新的音频文件中预测文本。
Whisper纯粹通过这些统计数据工作,没有在其原始设置中编码任何语言结构特征。但研究显示,这些结构一旦经过训练就会在模型中出现。这项研究不仅揭示了这类AI模型的工作机制,还为人类语言和认知提供了新的见解。识别模型发展语言处理能力与人类发展这些技能之间的相似之处,可能有助于设计帮助人们进行交流的技术。
主要研究作者阿里尔·戈德斯坦(Ariel Goldstein)表示:“这实际上关乎我们如何思考认知。”他在耶路撒冷希伯来大学担任助理教授。研究结果表明,“我们应该通过这种[统计]类型的模型来看待认知。”
这项发表于3月7日《自然·人类行为》期刊上的研究包括四位患有癫痫症的参与者,他们因临床原因已接受手术并植入脑电监测电极。在获得同意后,研究人员记录了所有患者住院期间的所有对话,这些对话时间从几天到一周不等。总共捕获了超过100小时的音频。每位参与者安装了104至255个电极来监测他们的大脑活动。
大多数使用对话录音的研究通常在一个非常受控的实验室环境中进行大约一个小时。虽然这种受控环境对于区分不同变量的作用很有用,但戈德斯坦和他的合作者想要“探索现实生活中的大脑活动和人类行为”。
他们的研究表明了不同大脑区域在生产与理解语言所需的任务中是如何参与的。戈德斯坦解释说,目前存在持续的争论,即在这些任务中是否是大脑的不同部分分别启动,还是整个器官更集体地响应。前一种观点可能暗示大脑的一部分处理构成单词的实际声音,另一部分解释这些单词的意义,还有一部分负责言语产生的运动控制。在另一种理论中,更多的是大脑的这些不同区域协同工作,采取一种“分布模式”,戈德斯坦说。
研究人员发现某些大脑区域确实倾向于与某些任务相关联。例如,已知涉及处理声音的区域,如颞上回,在处理听觉信息时表现出更多的活动,而涉及高级思维的区域,如额下回,在理解语言意义时更为活跃。他们还可以看到这些区域按顺序激活。例如,负责听觉输入的区域先于负责语义理解的区域被激活。
然而,研究人员也清楚地看到了在活动中激活的区域,这些活动并非已知其专门化。“我认为这是对这种分布模式最全面和最有力的实证支持,”戈德斯坦说。
这项研究是一项“开创性的工作,因为它证明了计算声学到语音再到语言模型的工作原理与大脑功能之间的联系,”德国慕尼黑神经科学中心的研究小组负责人莱昂哈德·席尔巴赫(Leonhard Schilbach)在一封电子邮件中告诉《科学现场》。然而,他补充道:“需要更多研究来探讨这种关联是否真正反映了语言模型与大脑处理语言机制间的相似性。”
“将大脑与人工神经网络对比是一项重要研究课题,”未参与这项研究的加州大学伯克利分校语言学系副教授加斯珀·贝古什(Gašper Beguš)通过电子邮件告诉《科学现场》。“如果我们理解了人工和生物神经元的内部运作及其相似之处,我们或许能够在生物大脑中无法实现的情况下开展实验与模拟。”
撰稿人安娜·德姆明(Anna Demming)是一位自由科学记者和编辑。她在伦敦国王学院获得了物理学博士学位,专攻纳米光子学以及光如何与微小事物相互作用。她于2006年开始在东京为《自然》出版集团工作,开始了她的编辑生涯。此后,她曾担任《物理世界》和《新科学家》的编辑。她对所有科学领域都抱有浓厚兴趣,尤其是材料科学和物理学,例如量子物理和凝聚态物理。
(以上内容均由Ai生成)