小米开源多模态大模型MiMo-VL-7B-2508

发布时间：2025年8月9日来源：szf

快速阅读: 7月11日，小米大模型团队开源新一代多模态大模型 Xiaomi MiMo-VL-7B-2508，包含 RL 和 SFT 两个版本，全面提升学科推理、文档理解等四项核心能力，新增“/no_think”指令，用户可自由切换思考模式。

7月11日，小米大模型团队宣布开源最新一代多模态大模型 Xiaomi MiMo-VL-7B-2508，包含 RL 和 SFT 两个版本。新版模型在学科推理、文档理解、图形界面定位及视频理解四项核心能力上全面刷新纪录，其中 MMMU 基准首次突破70分大关，ChartQA 升至94.4，ScreenSpot-v2 达92.5，VideoMME 提升至70.8。此次迭代通过优化强化学习稳定性和监督微调流程，使模型在内部 VLM Arena 评分从1093.9跃升至1131.2。

尤为引人关注的是，用户可在提问时通过“/no_think”指令自由切换“思考”与“非思考”模式。前者全程展示推理链条，控制成功率达到100%，后者直接生成答案，响应更快，成功率为99.84%。小米推荐用户在大多数情况下体验使用 MiMo-VL-7B-RL-2508 模型。开源地址为 https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508。

此外，用户可根据实际需求，基于 MiMo-VL-7B-SFT-2508 进行 SFT 和 RL。相比上一版 SFT 模型，该模型的 RL 稳定性更高。开源地址为 https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508。

(以上内容均由Ai生成)