日科学家开发脑波转文字技术,实现“心灵字幕”
快速阅读: 日本NTT通信科学实验室开发“思维字幕”技术,通过fMRI扫描仪捕捉大脑反应,与深度语言模型结合,实现将大脑活动转化为文本描述,有望帮助无法言语者表达思想,引发伦理和社会问题讨论。
如果大脑能够自动、悄无声息地撰写自己的字幕,那会怎样?这正是日本NTT通信科学实验室的Tomoyasu Horikawa提出的新技术“思维字幕”背后的诱人承诺。它不是心灵感应,不是科幻小说,也远未达到解读内心独白的程度,但其核心理念如此大胆,立刻重塑了非侵入性神经技术的未来可能性。
该系统的精髓在于一种出奇简单的配方。参与者躺在fMRI扫描仪中,观看数千个简短的无声视频片段:一个人开门,一辆自行车靠在墙上,一只狗在阳光明媚的房间里伸展。随着大脑的反应,每一次微小的活动脉冲都与从视频字幕中提取的抽象语义特征相匹配,这些特征是通过冻结的深度语言模型获得的。换句话说,解码器不是从零开始猜测神经模式的意义,而是将其与AI已经理解的丰富语言空间对齐。这就像教会计算机用大脑的语言说话,而大脑则是用计算机的语言说话。
一旦这种映射建立,奇迹就开始了。系统从空白句子开始,让掩码语言模型反复精炼它——推动每个单词,使正在形成的句子的语义特征与参与者的大脑似乎在“说”的内容对齐。经过足够多的迭代,混乱的文字逐渐变得连贯且惊人地具体。一个男人在海滩上跑步的视频片段变成了关于某人在海边慢跑的句子。一个关于观看猫爬上桌子的记忆转化为包含动作、物体和背景的文本描述,而不仅仅是散乱的关键词。
这项研究尤其引人入胜的是,即使排除了传统的大脑语言区域,这种方法仍然有效。如果你将布洛卡区和韦尼克区从方程中剔除,模型仍然可以产生流畅的描述。这表明,意义——我们所见和记忆周围的观念云——分布得比经典教科书暗示的要广泛得多。我们的大脑似乎以一种AI可以抓住的形式存储场景的语义,即使不利用用于说话或写作的神经机制。
对于一项处于早期阶段的技术而言,其数据令人惊讶。当系统基于未用于训练的新视频生成句子时,它能从100个选项中正确识别出视频片段约一半的时间。在回忆测试中,参与者只需想象之前看过的视频,有些人的准确率接近40%,这合乎情理,因为那个记忆最接近训练内容。在这一领域,“超出随机”通常意味着2%或3%,因此这些结果令人震惊——不是因为它承诺立即的实际用途,而是因为它展示了可以从嘈杂、间接的fMRI数据中重建深层次的视觉意义。
然而,一提到“大脑到文字”,你的思绪就会直接转向其潜在影响。对于因瘫痪、ALS或严重失语症而无法说话或书写的人来说,这项技术的未来版本可能代表某种接近数字心灵感应的能力:无需移动即可表达思想。同时,这也引发了社会尚未准备好回答的问题。如果心理图像可以被解码,即使是不完美的,谁有访问权限?谁来设定界限?研究本身的一些局限性提供了一些即时的安慰——它需要数小时的个性化大脑数据、昂贵的扫描仪和受控刺激。它无法解码随意的想法、私人记忆或无结构的白日梦。但它指出了一个方向,在那里,未来的心理健康法律可能成为必要。
目前,思维字幕最好被视为人类与机器交流下一章的一瞥。它展示了现代AI模型如何架起生物学与语言之间的桥梁,将神经活动模糊的几何形状转化为可读的信息。它预示着一个未来,在这个未来,我们的设备最终不仅能够理解我们打字、触摸或说出的内容,还能理解我们想象的画面。
(以上内容均由Ai生成)