日本研发“脑波字幕”技术,AI能解读大脑所见所想
快速阅读: 日本NTT通信科学实验室研发“思维字幕”技术,利用fMRI扫描大脑反应,通过AI模型将大脑活动转化为具体文本,准确率达40%-50%,有望帮助无法说话者表达思想,引发隐私保护讨论。
如果大脑能够自动、安静地为自己编写字幕,无需任何肌肉运动,那会怎样?
这就是“思维字幕”技术背后的诱人承诺,这项新技术由日本NTT通信科学实验室的Tomoyasu Horikawa提出(已发表论文)。这不是心灵感应,不是科幻小说,也远未达到解码内心独白的程度,但其基本理念如此大胆,以至于立刻重新定义了非侵入性神经技术可能的发展方向。
该系统的核心是一种令人惊讶的简洁方法。参与者躺在fMRI扫描仪中,观看数千个短小无声的视频片段:一个人开门,一辆自行车靠在墙上,一只狗在阳光照射的房间里伸展身体。
随着大脑反应,每个微小的活动脉冲都与从视频字幕中提取的抽象语义特征相匹配,这些特征是通过冻结的深度语言模型获得的。换句话说,解码器不是从头猜测神经模式的意义,而是将它们与AI已经理解的丰富语言空间对齐。这就像教会计算机用大脑的语言说话,而实际上是用大脑来学习计算机的语言。
一旦这种映射建立起来,奇迹就开始了。系统从空白句子开始,让掩码语言模型反复精炼——调整每个单词,使正在形成的句子的语义特征与参与者大脑似乎在“说”的内容对齐。经过足够多的迭代,混乱的文字逐渐变得连贯且出奇具体。
一段关于男人在海滩上奔跑的视频变成了关于某人在海边慢跑的句子。对看到猫爬到桌子上的记忆转化为一个包含了动作、物体和上下文交织在一起的文本描述,而不仅仅是散乱的关键词。
这项研究特别引人入胜的一点在于,即使排除传统语言区域,这种方法仍然有效。如果从方程中排除布洛卡区和韦尼克区,模型仍能产生流畅的描述。
这表明,意义——围绕我们所见所忆的概念云——分布得比经典教科书暗示的要广泛得多。我们的大脑似乎以一种AI可以捕捉的形式存储场景的语义,即使不依赖用于说话或写作的神经机制。
对于这种早期技术而言,数字令人惊讶。当系统基于未在训练中使用的视频生成句子时,它能从100个选项中正确识别出视频片段的概率约为50%。在回忆测试中,参与者只需想象之前看过的视频,准确率接近40%,这合乎情理,因为该记忆最接近训练内容。
在一个“超出偶然”通常意味着2%或3%的领域,这样的结果令人震惊——不是因为它承诺立即实用,而是因为它展示了可以从嘈杂的、间接的fMRI数据中重建深层视觉意义。
然而,一提到“脑-文字”,人们就会立刻想到其潜在影响。对于因瘫痪、ALS或严重失语症而无法说话或书写的人来说,未来版本的这项技术可能代表接近数字心灵感应的能力:无需移动即可表达思想。
与此同时,这也引发了一些社会尚未准备好回答的问题。如果精神图像可以被解码,即使是不完美的,谁有权访问?谁来设定界限?研究本身的局限性提供了一些即时的安慰——它需要数小时的个性化脑部数据、昂贵的扫描设备和受控刺激。它无法解码随意的想法、私人记忆或无结构的白日梦。但它指向了一条可能需要制定精神隐私法律的道路。
目前,“思维字幕”最好被视为人类与机器交流新篇章的一个预览。它展示了现代AI模型如何架起生物学与语言之间的桥梁,将神经活动的模糊几何图形转化为可读的信息。它预示着一个未来,在这个未来,我们的设备不仅能理解我们打字、点击或说出的内容,还能理解我们想象的画面。
归类于综合。阅读更多关于人工智能、大脑、日本、机器学习、NTT和科学的内容。
(以上内容均由Ai生成)