英伟达发布 OmniVinci,全模态理解超越顶尖模型19.05分

发布时间:2025年10月28日    来源:szf
英伟达发布 OmniVinci,全模态理解超越顶尖模型19.05分

快速阅读: 英伟达发布OmniVinci全模态理解模型,测试成绩领先19.05分,数据效率是竞品六倍。该模型通过创新架构和两阶段训练,实现视觉、音频和文本的跨模态理解。

近日,英伟达研究团队发布了全新的 OmniVinci 全模态理解模型,该模型在多个全模态理解基准测试中,表现出色,超越了目前最 顶尖 的模型19.05分。更令人瞩目的是,OmniVinci 在训练过程中仅使用了0.2万亿的训练 Token,相较于竞争对手的1.2万亿,其数据效率是其六倍。

OmniVinci 的核心目标是打造一个可以同时理解视觉、音频和文本的人工智能系统,使机器能够像人类一样,通过不同感官感知和理解复杂的世界。为了实现这一目标,研究团队不仅仅是简单地增加数据量,而是通过创新的网络架构和数据管理策略,成功实现了性能和效率的双重提升。

在设计上,OmniVinci 采用了全模态潜在空间的概念,旨在融合来自不同感官的信息,实现跨模态的理解与推理。研究团队发现,不同模态之间在感知和推理层面能够相互强化,这一发现为多模态 AI 系统的构建指明了方向。

OmniVinci 的架构设计具有可组合的跨模态理解能力,整合了图像、视频、音频和文本等异构输入。通过统一的全模态对齐机制,该模型能够将不同模态的嵌入信息整合到一个潜在空间中,进一步输入到大语言模型(LLM)中。该机制包括三项关键技术,其中 OmniAlignNet 模块有效对齐视觉和音频信息,而时间嵌入分组和约束旋转时间嵌入则提升了模型对时间信息的理解。

为了培养 OmniVinci 的全模态理解能力,研究团队采用了两阶段的训练方法。首先是模态特定训练,接着进行全模态联合训练,利用隐式和显式学习数据,显著提升了模型的联合理解能力。

随着 OmniVinci 的发布,英伟达再次展示了其在人工智能领域的技术创新,预示着未来 AI 系统将更加智能、灵活。

github:https://github.com/NVlabs/OmniVinci 划重点: 🌟 OmniVinci 模型在全模态理解基准测试中超越了 顶尖 模型19.05分。

📊 训练数据量仅为竞争对手的1/6,数据效率提升至六倍。

🔑 采用创新架构和两阶段训练方法,显著提升模型的多模态理解能力。

(以上内容均由Ai生成)

你可能还想读

全球房地产AI市场五年将增长超三倍

全球房地产AI市场五年将增长超三倍

快速阅读: 据官方通报,2024年全球房地产人工智能市场规模达2226.5亿美元,预计2029年将增至9752.4亿美元。迪拜凭借政策与技术优势成为应用前沿,推动行业加速向数据驱动和自动化转型。 全球房地产领域的人工智能市场规模在2024年 […]

发布时间:2025年12月15日
AI重塑电信渠道,释放企业真实价值

AI重塑电信渠道,释放企业真实价值

快速阅读: 截至目前,罗伯特·拜创立的Zenture Partners公司融合AI驱动平台与专业咨询,帮助企业简化电信采购、优化网络建设,提升复杂通信环境中的运营效率与决策能力。 罗伯特·拜(Robert Bye)创立了Zenture Pa […]

发布时间:2025年12月15日
中国AI迎突破 美国限制难阻增长

中国AI迎突破 美国限制难阻增长

快速阅读: 12月15日消息,戈壁创投指出,中国AI产业在六大领域仍有提升空间,但国产大模型DeepSeek显著增强了突破美国技术限制的信心;该机构认为,开源策略正推动技术迭代,企业正加大核心算法与算力基建投入。 中国人工智能产业在生态体系 […]

发布时间:2025年12月15日
马来西亚推AI赋能电网迈向低碳未来

马来西亚推AI赋能电网迈向低碳未来

快速阅读: 据马来西亚政府方面消息,副总理法迪拉12月15日在吉隆坡呼吁加快电力系统现代化,推动可信人工智能与清洁能源融合,增强电网韧性以支撑低碳经济发展,并要求算力项目从初期即注重能效与电网协同。 12月15日,马来西亚副总理兼能源转型与 […]

发布时间:2025年12月15日
全球基金视印度股市为对冲AI风险首选

全球基金视印度股市为对冲AI风险首选

快速阅读: 早前有消息称,印度股市因与全球AI交易关联度低,获国际资管机构青睐,被视为分散投资风险的重要选项;其消费驱动型经济及稳健金融板块吸引资金关注,多家机构预计其2026年将相对跑赢。 随着全球投资者对人工智能(AI)泡沫风险的担忧上 […]

发布时间:2025年12月15日
Alphabet用Gemini升级谷歌翻译与搜索

Alphabet用Gemini升级谷歌翻译与搜索

快速阅读: 据Alphabet公司消息,其利用Gemini模型升级搜索与翻译应用,提升对习语及俚语的翻译准确度,新功能已在美国和印度上线,支持近20种语言互译,并推出覆盖70余种语言的实时语音翻译测试版。 Alphabet公司近日宣布,将利 […]

发布时间:2025年12月15日
Grok误传邦迪海滩枪击案关键事实

Grok误传邦迪海滩枪击案关键事实

快速阅读: 据媒体报道,马斯克旗下xAI团队开发的Grok聊天机器人在回应澳大利亚邦迪海滩枪击事件时多次传播不实信息,错误识别制服枪手者身份并掺杂无关政治内容,目前已部分修正,专家呼吁加强AI系统事实核查机制以防误导公众。 近日,由埃隆·马 […]

发布时间:2025年12月15日
中国AI迎突破 美国限制难阻增长

中国AI迎突破 美国限制难阻增长

快速阅读: 据机构披露,毅达资本合伙人周奇表示,中国AI在人形机器人和开源大模型领域已具优势,国产大模型DeepSeek的突破增强了突破美国技术限制的信心,AI正成为新质生产力的核心引擎,投资聚焦核心技术与场景落地。 中国人工智能产业在生态 […]

发布时间:2025年12月15日