中科院发布SpikingBrain:2%数据实现百倍速处理长文本
快速阅读: 中国科学院团队发布SpikingBrain1.0,采用人脑神经元工作方式,处理长文本速度超现有模型百倍,计算复杂度降至线性,能耗显著降低,提供新AI路径。
近日,中国科学院自动化研究所的李国齐与徐波团队联合发布了全球首款大规模类脑脉冲大模型——SpikingBrain1.0。该模型在处理长文本时表现出惊人的速度,能够以超过当前主流Transformer模型100多倍的速度处理400万token的超长文本,且仅需2%的数据量。
目前,主流的大语言模型,如GPT系列,普遍基于Transformer架构。虽然Transformer以其强大的自注意力机制著称,但其计算复杂度却是一大短板。随着文本长度的增加,计算量呈平方级别增长,导致长文本处理异常耗时和耗能。这使得AI在分析长篇小说或法律文书时面临挑战。
为寻找新的解决方案,研究团队转向了自然界最高效的智能系统——人脑。人脑由千亿神经元组成,功耗仅为20瓦。团队提出“基于内生复杂性”的理念,旨在提高模型内部单元的效率与智能。
SpikingBrain模型通过全新架构模拟了人脑神经元的工作方式,推出两个版本:SpikingBrain-7B(70亿参数)和SpikingBrain-76B(760亿参数)。首先,该模型摒弃了传统Transformer的二次方复杂度自注意力机制,采用“混合线性注意力架构”,将计算复杂度降至线性(O(n)),显著提高了长文本处理效率。
其次,SpikingBrain引入了“自适应阈值脉冲神经元”,神经元的激活与否取决于接收到的信号强度。通过动态调整阈值,模型确保神经元在高效能状态下工作,这种事件驱动的机制显著节省了能耗,计算稀疏度达到69.15%。
此外,团队还开发了一套高效的模型转换技术,可以将现有Transformer模型直接转化为SpikingBrain架构,降低了训练成本。所有技术细节和代码已在GitHub及魔搭平台上开源,供全球研究人员使用。
SpikingBrain的问世不仅在计算效率上取得重大突破,也为未来的通用人工智能提供了一条新路径。
(以上内容均由Ai生成)