艾伦人工智能研究所发布Molmo2开源视频语言模型
快速阅读: 据艾伦人工智能研究所消息,该机构近日发布开源视频语言模型Molmo2系列,包含基于Qwen3及自研Olmo的多个版本,并同步开放九个视频与多图像问答数据集。该模型支持时空推理、事件定位与物体追踪,参数规模为40亿或80亿,兼顾轻量性与数据透明度,以满足企业对自主可控AI的需求。
近日,艾伦人工智能研究所(AI2)发布全新开源视频语言模型Molmo2系列,进一步兑现其在开源领域的承诺。当前,企业对模型使用的自主掌控日益重视,此举被视为重要利好。
Molmo2包含多个版本:基于阿里巴巴Qwen3语言模型的Molmo2-4B和Molmo2-8B,以及完全开源的Molmo2-O-7B——后者采用AI2自研的Olmo语言模型。同时,AI2还发布了九个新数据集,涵盖多图像与视频输入的长格式问答内容,并开放了视频指向与跟踪数据集。
该系列模型功能显著增强。其中,Molmo2-O-7B为透明模型,支持用户开展端到端研究与定制,可全面访问视觉语言模块及语言大模型,便于按需调整。模型不仅能回答关于图像或视频的问题,还能基于识别出的模式进行时空推理。
据AI2感知推理与交互研究主管Ranjay Krishna介绍,Molmo2不仅能提供答案,还可精确定位事件发生的时间与空间位置。此外,其具备生成描述性字幕、追踪物体数量,以及检测长视频中罕见事件等能力。
用户现可通过Hugging Face及AI2 Playground平台体验Molmo2。分析师Bradley Shimmin指出,在数据主权日益受重视的背景下,公开模型权重与训练数据对企业至关重要。Molmo2参数规模为40亿或80亿,相对轻量,更具成本效益。他强调,企业正逐步认识到,除模型规模外,训练数据的透明度与责任性同样关键。
(以上内容均由Ai生成)
引用自:AIbase人工智能资讯平台