英伟达发布OmniVinci，全模态理解刷新SOTA

发布时间：2025年10月28日来源：szf

快速阅读: 英伟达发布 OmniVinci 全模态理解模型，性能超现有顶尖模型19.05分，训练数据仅需1/6，创新全模态对齐机制，显著提升数据效率。

英伟达研究团队今日发布了名为 OmniVinci 的全模态理解模型。该模型在关键的全模态理解基准测试中取得了显著成绩，比现有顶尖模型高出19.05分。尤为突出的是，OmniVinci 仅使用了1/6的训练数据，展现了卓越的数据效率和性能。

OmniVinci 的目标是构建一个能够同时理解视觉、音频和文本的全能 AI 系统，使机器能够像人类一样通过多种感官感知并理解复杂世界。为此，英伟达团队采用了创新的架构设计和数据管理策略，通过一个统一的全模态潜在空间，将不同感官的信息融合在一起，实现了跨模态的理解和推理。

在 Dailyomni 基准测试中，OmniVinci 的表现超越了 Qwen2.5-Omni，在音频理解的 MMAR 测试中高出1.7分，在视觉理解的 Video-MME 测试中高出3.9分。OmniVinci 的训练所用的 Token 数量仅为0.2万亿，而 Qwen2.5-Omni 的训练量为1.2万亿，显示 OmniVinci 的训练效率是其6倍。

该模型的核心创新在于全模态对齐机制，包括 OmniAlignNet 模块、时间嵌入分组（TEG）和约束旋转时间嵌入（CRTE）三项技术。OmniAlignNet 利用了视觉和音频信号之间的互补性，增强了两者的学习与对齐。TEG 通过将视觉和音频信息按时间分组，有效地编码了时间关系。CRTE 解决了时间对齐问题，确保模型能理解事件的绝对时间信息。

研究团队采用了两阶段的训练方法，先进行模态特定训练，再进行全模态联合训练，逐步提升模型的全模态理解能力。在隐式全模态学习方面，研究者利用现有的视频问答数据集，进一步提升了模型对音视频的联合理解能力。

OmniVinci 的推出标志着英伟达在多模态 AI 领域的重大突破，预计将在各类应用中推动 AI 技术的发展，促进更智能系统的出现。该模型的开源发布，也将为全球研究人员和开发者提供新的机会，推动 AI 在实际应用中的进一步探索与创新。

(以上内容均由Ai生成)