英伟达发布OmniVinci,全模态理解刷新SOTA

发布时间:2025年10月28日    来源:szf
英伟达发布OmniVinci,全模态理解刷新SOTA

快速阅读: 英伟达发布 OmniVinci 全模态理解模型,性能超现有顶尖模型19.05分,训练数据仅需1/6,创新全模态对齐机制,显著提升数据效率。

英伟达研究团队今日发布了名为 OmniVinci 的全模态理解模型。该模型在关键的全模态理解基准测试中取得了显著成绩,比现有顶尖模型高出19.05分。尤为突出的是,OmniVinci 仅使用了1/6的训练数据,展现了卓越的数据效率和性能。

OmniVinci 的目标是构建一个能够同时理解视觉、音频和文本的全能 AI 系统,使机器能够像人类一样通过多种感官感知并理解复杂世界。为此,英伟达团队采用了创新的架构设计和数据管理策略,通过一个统一的全模态潜在空间,将不同感官的信息融合在一起,实现了跨模态的理解和推理。

在 Dailyomni 基准测试中,OmniVinci 的表现超越了 Qwen2.5-Omni,在音频理解的 MMAR 测试中高出1.7分,在视觉理解的 Video-MME 测试中高出3.9分。OmniVinci 的训练所用的 Token 数量仅为0.2万亿,而 Qwen2.5-Omni 的训练量为1.2万亿,显示 OmniVinci 的训练效率是其6倍。

该模型的核心创新在于全模态对齐机制,包括 OmniAlignNet 模块、时间嵌入分组(TEG)和约束旋转时间嵌入(CRTE)三项技术。OmniAlignNet 利用了视觉和音频信号之间的互补性,增强了两者的学习与对齐。TEG 通过将视觉和音频信息按时间分组,有效地编码了时间关系。CRTE 解决了时间对齐问题,确保模型能理解事件的绝对时间信息。

研究团队采用了两阶段的训练方法,先进行模态特定训练,再进行全模态联合训练,逐步提升模型的全模态理解能力。在隐式全模态学习方面,研究者利用现有的视频问答数据集,进一步提升了模型对音视频的联合理解能力。

OmniVinci 的推出标志着英伟达在多模态 AI 领域的重大突破,预计将在各类应用中推动 AI 技术的发展,促进更智能系统的出现。该模型的开源发布,也将为全球研究人员和开发者提供新的机会,推动 AI 在实际应用中的进一步探索与创新。

(以上内容均由Ai生成)

你可能还想读

Character.AI限制青少年开放聊天,加强安全措施

Character.AI限制青少年开放聊天,加强安全措施

快速阅读: Character.AI将实施成人专用政策,限制青少年使用开放式AI角色对话,但仍可通过生成视频和角色扮演互动。此举旨在保护青少年安全,同时推出新的年龄验证措施。 AI伴侣聊天机器人公司Character.AI即将实施成人专用政 […]

发布时间:2025年10月29日
模拟芯片加速AI训练,能耗降低千倍

模拟芯片加速AI训练,能耗降低千倍

快速阅读: 北京大学钟孙团队开发模拟芯片,专攻矩阵方程,提升计算精度与能效,有望解决AI模型训练中的能耗问题,性能超越现有数字芯片。 模拟计算机在解决用于训练人工智能模型的关键方程时,比数字计算机更加节能。随着人工智能热潮导致数据中心能源消 […]

发布时间:2025年10月29日
英伟达首次展示Vera Rubin超级芯片,88核CPU配双GPU

英伟达首次展示Vera Rubin超级芯片,88核CPU配双GPU

快速阅读: 鲁宾GPU于2025年9月在台湾封装,散热器尺寸与布莱克威尔相似,无法确定封装尺寸。维拉CPU为多芯片设计,内部有明显接缝。 鲁宾GPU上的标记显示,该处理器于2025年第38周在台湾封装,大约是9月下旬,这表明公司已经使用这款 […]

发布时间:2025年10月29日
Opera One升级内置AI,提升浏览体验

Opera One升级内置AI,提升浏览体验

快速阅读: Opera One R3更新推出全新AI,基于Opera Neon技术,更快速智能,无需第三方扩展,集成安全隐私功能,支持多标签页综合分析及日程管理,界面移至右侧,取代Aria。 作为Opera One R3更新的一部分,我们正 […]

发布时间:2025年10月29日
OpenAI计划2028年前开发全自动AI研究员加速科学发现

OpenAI计划2028年前开发全自动AI研究员加速科学发现

快速阅读: OpenAI计划2028年前开发出全自动AI研究员,加速科学发现,推动超级智能发展;同时完成公司重组,微软持有27%股份,价值1350亿美元。 OpenAI首席执行官萨姆·阿尔特曼宣布,公司计划到2028年开发出一位完全自动化的 […]

发布时间:2025年10月29日
模拟芯片加速AI训练,能耗降低千倍

模拟芯片加速AI训练,能耗降低千倍

快速阅读: 北京大学研发模拟芯片组,提升矩阵方程求解速度和精度,能耗远低于现有数字芯片,有望缓解AI模型训练中的能源消耗问题。 模拟计算机在解决训练人工智能模型所需的关键方程方面速度快且能耗低,可能成为应对数据中心因人工智能热潮而日益增长的 […]

发布时间:2025年10月29日
Phia创始人谈AI如何改变在线购物体验

Phia创始人谈AI如何改变在线购物体验

快速阅读: Phia由Phoebe Gates和Sophia Kianni创立,专注于利用AI改善在线购物体验,提供价格比较及二手商品信息,旨在减少碳足迹并提高购物效率。 当Phia的创始人Phoebe Gates和Sophia Kiann […]

发布时间:2025年10月29日
Adobe展示AI照片编辑新技术,一键完成复杂操作

Adobe展示AI照片编辑新技术,一键完成复杂操作

快速阅读: Adobe Max展示多项摄影新技术,包括Trace Erase、Light Touch和空间照明等工具,通过Firefly AI模型实现快速照片编辑,如一键移除干扰物、调整光线和3D渲染,简化复杂编辑过程。 每年在Adobe […]

发布时间:2025年10月29日