英伟达发布OmniVinci,全模态理解刷新SOTA

发布时间:2025年10月28日    来源:szf
英伟达发布OmniVinci,全模态理解刷新SOTA

快速阅读: 英伟达发布 OmniVinci 全模态理解模型,性能超现有顶尖模型19.05分,训练数据仅需1/6,创新全模态对齐机制,显著提升数据效率。

英伟达研究团队今日发布了名为 OmniVinci 的全模态理解模型。该模型在关键的全模态理解基准测试中取得了显著成绩,比现有顶尖模型高出19.05分。尤为突出的是,OmniVinci 仅使用了1/6的训练数据,展现了卓越的数据效率和性能。

OmniVinci 的目标是构建一个能够同时理解视觉、音频和文本的全能 AI 系统,使机器能够像人类一样通过多种感官感知并理解复杂世界。为此,英伟达团队采用了创新的架构设计和数据管理策略,通过一个统一的全模态潜在空间,将不同感官的信息融合在一起,实现了跨模态的理解和推理。

在 Dailyomni 基准测试中,OmniVinci 的表现超越了 Qwen2.5-Omni,在音频理解的 MMAR 测试中高出1.7分,在视觉理解的 Video-MME 测试中高出3.9分。OmniVinci 的训练所用的 Token 数量仅为0.2万亿,而 Qwen2.5-Omni 的训练量为1.2万亿,显示 OmniVinci 的训练效率是其6倍。

该模型的核心创新在于全模态对齐机制,包括 OmniAlignNet 模块、时间嵌入分组(TEG)和约束旋转时间嵌入(CRTE)三项技术。OmniAlignNet 利用了视觉和音频信号之间的互补性,增强了两者的学习与对齐。TEG 通过将视觉和音频信息按时间分组,有效地编码了时间关系。CRTE 解决了时间对齐问题,确保模型能理解事件的绝对时间信息。

研究团队采用了两阶段的训练方法,先进行模态特定训练,再进行全模态联合训练,逐步提升模型的全模态理解能力。在隐式全模态学习方面,研究者利用现有的视频问答数据集,进一步提升了模型对音视频的联合理解能力。

OmniVinci 的推出标志着英伟达在多模态 AI 领域的重大突破,预计将在各类应用中推动 AI 技术的发展,促进更智能系统的出现。该模型的开源发布,也将为全球研究人员和开发者提供新的机会,推动 AI 在实际应用中的进一步探索与创新。

(以上内容均由Ai生成)

你可能还想读

马姆达尼-汗团队应推动纽约企业加强AI合规

马姆达尼-汗团队应推动纽约企业加强AI合规

快速阅读: 据市消费者与工人保护局消息,纽约市将强化人工智能监管,要求雇主对自动化招聘工具开展偏见审计并公开结果;联邦贸易委员会前主席莉娜·汗加入市长顾问团,或推动《地方法律144号》更严格实施,企业需完善AI全周期治理以应对合规挑战。 纽 […]

发布时间:2025年12月15日
投保人应协商限制续保时的AI免责条款

投保人应协商限制续保时的AI免责条款

快速阅读: 据保险服务办公室消息,随着续保季临近,多家保险公司扩大AI除外责任条款范围,涵盖D&O及职业责任险等,企业需提前协商条款、梳理AI应用清单,并依法主张权益以维护保障有效性。 随着保险续保季临近,投保企业需高度关注各类保单 […]

发布时间:2025年12月15日
Wipro携手谷歌微软推AI新合作

Wipro携手谷歌微软推AI新合作

快速阅读: 据威普罗消息,12月15日,该公司宣布深化与谷歌云及微软的合作,分别部署Gemini Enterprise平台与整合微软AI技术栈,推动企业AI应用落地,并已设立两大创新中心支持内部验证与客户方案开发。 12月15日,印度信息技 […]

发布时间:2025年12月15日
NTT研发新技术可大幅降低数据中心能耗

NTT研发新技术可大幅降低数据中心能耗

快速阅读: 据《自然》杂志报道,日本NTT研究团队联合康奈尔大学开发出“可编程非线性光子学”技术,利用光信号替代电信号,显著提升能效并降低AI数据中心能耗,相关成果已发表于该期刊。 日本NTT研究公司科研团队近日开发出一项有望显著降低人工智 […]

发布时间:2025年12月15日
格芯任命内部高管为CFO强化AI战略

格芯任命内部高管为CFO强化AI战略

快速阅读: 记者从格芯公司获悉,该公司于12月10日正式任命山姆·富兰克林为首席财务官,统筹财务、运营及投资者关系,以强化其在差异化芯片与AI需求领域的长期战略执行,并推进纽约州5.75亿美元先进封装中心等重大项目。 格芯公司(Global […]

发布时间:2025年12月15日
工程师反思过度依赖AI编码

工程师反思过度依赖AI编码

快速阅读: 据美国信息技术行业协会消息,截至2025年11月,美国软件工程师岗位降至9.25万个,较2023年初减少近四成,但要求AI技能的职位比例年内上升53%,反映行业加速向人机协同模式转型。 软件工程师斯里拉姆·拉贾作为初创公司Dec […]

发布时间:2025年12月15日
AI与机器人将推升印度制造业GDP至1.1万亿美元

AI与机器人将推升印度制造业GDP至1.1万亿美元

快速阅读: 据安杰尔一号旗下Iconic Wealth发布的报告,若印度加速应用人工智能与机器人等前沿技术,其制造业GDP有望在2047年前提升1.1万亿美元;反之则可能累计损失达1万亿美元。报告强调,技术采纳已成为印度在全球制造业竞争中立 […]

发布时间:2025年12月15日
Axon 2 AI驱动AppLovin长期增长获分析师看好

Axon 2 AI驱动AppLovin长期增长获分析师看好

快速阅读: 据业内人士透露,AppLovin凭借Axon 2人工智能平台推动广告业务增长,年内股价上涨96.23%,但77.7倍市盈率远超行业均值,叠加隐私监管趋严与竞争加剧,投资者需权衡高增长与估值风险。 近期,市场对AppLovin(股 […]

发布时间:2025年12月15日