艾伦人工智能研究所发布Molmo2开源视频语言模型

发布时间：2025年12月17日来源：szf

快速阅读: 据艾伦人工智能研究所消息，该机构近日发布开源视频语言模型Molmo2系列，包含基于Qwen3及自研Olmo的多个版本，并同步开放九个视频与多图像问答数据集。该模型支持时空推理、事件定位与物体追踪，参数规模为40亿或80亿，兼顾轻量性与数据透明度，以满足企业对自主可控AI的需求。

近日，艾伦人工智能研究所（AI2）发布全新开源视频语言模型Molmo2系列，进一步兑现其在开源领域的承诺。当前，企业对模型使用的自主掌控日益重视，此举被视为重要利好。

Molmo2包含多个版本：基于阿里巴巴Qwen3语言模型的Molmo2-4B和Molmo2-8B，以及完全开源的Molmo2-O-7B——后者采用AI2自研的Olmo语言模型。同时，AI2还发布了九个新数据集，涵盖多图像与视频输入的长格式问答内容，并开放了视频指向与跟踪数据集。

该系列模型功能显著增强。其中，Molmo2-O-7B为透明模型，支持用户开展端到端研究与定制，可全面访问视觉语言模块及语言大模型，便于按需调整。模型不仅能回答关于图像或视频的问题，还能基于识别出的模式进行时空推理。

据AI2感知推理与交互研究主管Ranjay Krishna介绍，Molmo2不仅能提供答案，还可精确定位事件发生的时间与空间位置。此外，其具备生成描述性字幕、追踪物体数量，以及检测长视频中罕见事件等能力。

用户现可通过Hugging Face及AI2 Playground平台体验Molmo2。分析师Bradley Shimmin指出，在数据主权日益受重视的背景下，公开模型权重与训练数据对企业至关重要。Molmo2参数规模为40亿或80亿，相对轻量，更具成本效益。他强调，企业正逐步认识到，除模型规模外，训练数据的透明度与责任性同样关键。

(以上内容均由Ai生成)

引用自：AIbase人工智能资讯平台