英伟达发布OmniVinci,全模态理解刷新SOTA

发布时间:2025年10月28日    来源:szf
英伟达发布OmniVinci,全模态理解刷新SOTA

快速阅读: 英伟达发布 OmniVinci 全模态理解模型,性能超现有顶尖模型19.05分,训练数据仅需1/6,创新全模态对齐机制,显著提升数据效率。

英伟达研究团队今日发布了名为 OmniVinci 的全模态理解模型。该模型在关键的全模态理解基准测试中取得了显著成绩,比现有顶尖模型高出19.05分。尤为突出的是,OmniVinci 仅使用了1/6的训练数据,展现了卓越的数据效率和性能。

OmniVinci 的目标是构建一个能够同时理解视觉、音频和文本的全能 AI 系统,使机器能够像人类一样通过多种感官感知并理解复杂世界。为此,英伟达团队采用了创新的架构设计和数据管理策略,通过一个统一的全模态潜在空间,将不同感官的信息融合在一起,实现了跨模态的理解和推理。

在 Dailyomni 基准测试中,OmniVinci 的表现超越了 Qwen2.5-Omni,在音频理解的 MMAR 测试中高出1.7分,在视觉理解的 Video-MME 测试中高出3.9分。OmniVinci 的训练所用的 Token 数量仅为0.2万亿,而 Qwen2.5-Omni 的训练量为1.2万亿,显示 OmniVinci 的训练效率是其6倍。

该模型的核心创新在于全模态对齐机制,包括 OmniAlignNet 模块、时间嵌入分组(TEG)和约束旋转时间嵌入(CRTE)三项技术。OmniAlignNet 利用了视觉和音频信号之间的互补性,增强了两者的学习与对齐。TEG 通过将视觉和音频信息按时间分组,有效地编码了时间关系。CRTE 解决了时间对齐问题,确保模型能理解事件的绝对时间信息。

研究团队采用了两阶段的训练方法,先进行模态特定训练,再进行全模态联合训练,逐步提升模型的全模态理解能力。在隐式全模态学习方面,研究者利用现有的视频问答数据集,进一步提升了模型对音视频的联合理解能力。

OmniVinci 的推出标志着英伟达在多模态 AI 领域的重大突破,预计将在各类应用中推动 AI 技术的发展,促进更智能系统的出现。该模型的开源发布,也将为全球研究人员和开发者提供新的机会,推动 AI 在实际应用中的进一步探索与创新。

(以上内容均由Ai生成)

你可能还想读

1X发布会说家机器人NEO,人形机器人竞赛升温

1X发布会说家机器人NEO,人形机器人竞赛升温

快速阅读: 中国宇树机器人推出四英尺高G1人形机器人,采用预算策略;国防科技大学与美的集团合作,利用HumanoidExo系统捕捉全身动作,训练机器人更像人类移动。 中国制造商宇树机器人采取预算策略,推出其四英尺高的G1人形机器人。同时,国 […]

发布时间:2025年10月29日
卡里隆NASA式运营中心集成AI,缩短等待时间

卡里隆NASA式运营中心集成AI,缩短等待时间

快速阅读: 卡里隆转移和通信中心(CTac)参照NASA设计,自2011年创建以来,成为医院管理和患者流动的创新典范。CTac监控卡里隆诊所及区域设施,处理转院请求和紧急情况,现引入AI技术提升效率,每年接待超18万急诊患者,处理约1650 […]

发布时间:2025年10月29日
生命时钟预测疾病,AI提前揭示健康风险

生命时钟预测疾病,AI提前揭示健康风险

快速阅读: 科学家开发出覆盖全生命周期的生物钟模型“LifeClock”,能预测疾病风险,区分儿科发育与成人衰老的生物节奏,为精准医疗提供低成本工具。 科学家利用基于变换器的人工智能技术,开发了一种覆盖整个生命周期的生物钟模型,该模型能够预 […]

发布时间:2025年10月29日
参议员提议禁止青少年使用AI聊天机器人

参议员提议禁止青少年使用AI聊天机器人

快速阅读: 新法案要求AI聊天机器人每30分钟披露非人类身份,设防避免冒充人类,并禁止运营危害未成年人的聊天机器人,加强AI安全监管。 根据法案,AI聊天机器人需每30分钟披露一次其非人类身份。法案还要求这些机器人设置防护措施,防止它们声称 […]

发布时间:2025年10月29日
Adobe推出Photoshop AI助手,自动化设计重复任务

Adobe推出Photoshop AI助手,自动化设计重复任务

快速阅读: Adobe推出专为Photoshop设计的新AI助手,助力设计师自动化工作,提供个性化建议和教程。此助手亦将集成至Adobe Express,支持对话式编辑。新功能包括Harmonize、生成填充等,现已上线。Photoshop […]

发布时间:2025年10月29日
微软注资OpenAI重组,估值飙升至5000亿

微软注资OpenAI重组,估值飙升至5000亿

快速阅读: OpenAI与微软达成协议,重组为公共利益公司,微软将持有27%股份,估值1350亿美元。此举结束18个月动荡,增强投资者信心,推动AI发展。 OpenAI 获得了新的生机。周二,该公司宣布与微软达成协议,将重组为一家公共利益公 […]

发布时间:2025年10月29日
英伟达斥资 10 亿美元入股诺基亚,后者股价应声大涨 22%

英伟达斥资 10 亿美元入股诺基亚,后者股价应声大涨 22%

快速阅读: 英伟达向诺基亚投资10亿美元,成为第二大股东。诺基亚股价飙升22%,创近十年新高。双方将合作开发6G技术和人工智能网络,诺基亚将调整5G、6G软件以适配英伟达芯片。 感谢IT之家网友 HH_KK 的线索投递! IT之家 10 月 […]

发布时间:2025年10月29日
亚马逊为“减少官僚作风”将裁员 1.4 万人,同时加大 AI 投入力度

亚马逊为“减少官僚作风”将裁员 1.4 万人,同时加大 AI 投入力度

快速阅读: 亚马逊宣布企业部门裁员14000人,旨在精简管理层、减少官僚作风,加大AI战略投入。此次裁员为2022年来第二大行动,公司计划继续优化结构,提高竞争力。 IT之家 10 月 29 日消息,据外媒 TechCrunch 报道,当地 […]

发布时间:2025年10月29日