商汤发布NEO架构，原生多模态模型数据需求减90%仍达SOTA

发布时间：2025年12月3日来源：szf

快速阅读: 商汤科技与南洋理工大学S-Lab联合发布原生多模态架构NEO，开源2B和9B两版模型。NEO革新了视觉编码和位置编码技术，实现“像素到Token”连续映射，显著降低数据需求，提升多模态模型性能。

商汤科技与南洋理工大学S-Lab合作发布了行业首个原生多模态架构NEO，并开源了2B和9B两个版本的模型。该架构摒弃了传统的“视觉编码器+投影器+语言模型”三段式方案，从注意力机制、位置编码到语义映射均进行了全面重写。官方表示，在相同性能下，NEO的数据需求仅为行业平均水平的十分之一，首次实现了“像素到Token”的连续映射。

据商汤的技术负责人介绍，NEO通过原生图块嵌入层直接读取像素，取消了独立的图像Tokenizer；采用三维旋转位置编码（Native-RoPE）在同一个向量空间内同时表达文本和视觉时空频率；多头注意力机制采用“视觉双向+文本自回归”的混合计算方式，提升了空间结构关联得分24%。测试结果显示，在参数范围从0.6B到8B之间，NEO在ImageNet、COCO及Kinetics-400等多个基准上达到了最先进水平，且在边缘设备上的推理延迟低于80毫秒。

目前，NEO的模型权重和训练脚本已在GitHub上公开，商汤计划于明年第一季度进一步开源3D感知与视频理解版本。业内专家认为，NEO的“深层融合”方法有望终结多模态领域的“拼积木”模式，为终端小模型提供新的性能标准。

(以上内容均由Ai生成)