突破性的脑语音技术让瘫痪患者触手可及
快速阅读: 《技术点》消息,研究者开发出一种脑机接口系统,帮助瘫痪者恢复自然语音交流。通过AI解码大脑信号为语音,实现近实时语音合成,准确且连续。此技术有望在未来改善瘫痪患者的生活质量。
**前瞻:脑机接口助瘫痪者恢复自然语音交流**
加州大学伯克利分校和加州大学旧金山分校的研究人员成功开发出一种先进的脑机接口系统,能够帮助严重瘫痪者恢复自然语音交流。这一突破性成果解决了神经假体语音领域的长期难题,并在《自然·神经科学》杂志上发表的研究中进行了详细阐述。这项研究标志着在帮助丧失说话能力的人实现实时沟通方面取得了重要进展。
研究团队借助人工智能的进步,攻克了传统脑机接口中长期存在的延迟问题——即从人想说话的意图到实际语音生成的时间间隔。他们的流媒体系统能够近乎实时地将神经信号解码为可听语音。“我们的流媒体方法将类似Alexa和Siri那样的快速语音解码能力引入了神经假体,”联合首席研究员、加州大学伯克利分校助理教授戈帕拉·阿努曼奇帕利解释道,“通过类似的算法,我们首次实现了接近同步的语音生成。这使得语音合成更加自然流畅。”
这项技术对改善像ALS(渐冻症)或中风导致瘫痪患者的日常生活具有巨大潜力。“最新的人工智能进展正在显著加速脑机接口的实际应用,”加州大学旧金山分校神经外科医生爱德华·张表示,他也是该研究的高级联合首席研究员。
该系统通过采集控制言语产生的运动皮层神经数据,并利用人工智能将其解码为口语单词来运行。研究人员在一个47岁的女性安身上测试了这套方法,她在18年前因中风而无法说话。安参与了一项临床试验,在试验中,植入她大脑表面的电极记录了她尝试无声说出屏幕显示句子时的神经活动。随后,这些信号通过一个以她受伤前声音训练的AI模型解码为可听语音。“我们本质上是在拦截将思维转化为发音的过程,”加州大学伯克利分校博士生、该研究的主要作者崔哲俊说道,“因此我们解码的是在思考之后——在决定说什么以及如何移动声道肌肉之后。”
这种方法允许研究人员在不让她发声的情况下,将安的神经活动映射到目标句子。其中一个关键突破是实现了接近实时的语音合成。传统脑机接口系统通常存在显著延迟,解码一句话可能需要长达八秒,而新方法大大缩短了这一时间。“我们能在一秒内看到第一个声音输出,”阿努曼奇帕利指出。
此外,该系统还展示了连续解码的能力,使安能够“说话”而不间断。尽管速度快,但系统在解码语音时依然保持高准确性。为了验证其适应性,研究人员评估了系统能否合成训练数据集之外的词汇。他们使用了来自NATO音标字母表的一些罕见词汇,如“阿尔法”和“布拉沃”,并确认模型可以推广到熟悉词汇之外。“我们发现模型表现优异,这表明它真正学会了声音或语音的基本构建块,”阿努曼奇帕利说。
安本人也注意到,这种新的流媒体方法与之前研究中使用的文本转语音方法有明显区别。根据阿努曼奇帕利的说法,她描述听到自己声音实时增加了她的自我感知——这是让脑机接口感觉更自然的重要一步。
研究人员还探索了系统如何与不同类型的脑传感技术结合工作,包括穿透脑组织的微电极阵列(MEA)和检测面部肌肉活动的非侵入式表面肌电图(sEMG)传感器。这种灵活性表明了该技术在多种脑机接口平台上的广泛应用潜力。
目前,研究团队正专注于进一步提升和完善技术。一个重要的研究方向是如何将语调、音高和响度等副语言特征纳入合成语音中,从而提高表达力。“即使在传统的音频合成领域,这也是长期以来的难题,”另一位联合主要作者、加州大学伯克利分校博士生凯洛·利特约翰提到,“这将是完全自然化的一大突破。”
虽然仍处于实验阶段,但这项突破带来了希望,未来十年内,能够恢复流利语言的脑机接口或许会变得广泛可用。该项目得到了国家耳聋及其他交流障碍研究所(NIDCD)、日本科学技术厅的月球计划以及若干私人基金会的支持。“这是一项重大突破,”崔哲俊说道,“我们相信现在可以在每一个层面取得进步。”
(以上内容均由Ai生成)