小米开源多模态大模型MiMo-VL-7B-2508
快速阅读: 7月11日,小米大模型团队开源新一代多模态大模型 Xiaomi MiMo-VL-7B-2508,包含 RL 和 SFT 两个版本,全面提升学科推理、文档理解等四项核心能力,新增“/no_think”指令,用户可自由切换思考模式。
7月11日,小米大模型团队宣布开源最新一代多模态大模型 Xiaomi MiMo-VL-7B-2508,包含 RL 和 SFT 两个版本。新版模型在学科推理、文档理解、图形界面定位及视频理解四项核心能力上全面刷新纪录,其中 MMMU 基准首次突破70分大关,ChartQA 升至94.4,ScreenSpot-v2 达92.5,VideoMME 提升至70.8。此次迭代通过优化强化学习稳定性和监督微调流程,使模型在内部 VLM Arena 评分从1093.9跃升至1131.2。
尤为引人关注的是,用户可在提问时通过“/no_think”指令自由切换“思考”与“非思考”模式。前者全程展示推理链条,控制成功率达到100%,后者直接生成答案,响应更快,成功率为99.84%。小米推荐用户在大多数情况下体验使用 MiMo-VL-7B-RL-2508 模型。开源地址为 https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508。
此外,用户可根据实际需求,基于 MiMo-VL-7B-SFT-2508 进行 SFT 和 RL。相比上一版 SFT 模型,该模型的 RL 稳定性更高。开源地址为 https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508。
(以上内容均由Ai生成)