小米推出AI新成果，开源多模态大模型性能显著提升

发布时间：2025年8月12日来源：szf

快速阅读: 7月11日，小米发布全新多模态大模型 Xiaomi MiMo-VL-7B-2508，优化输出模式，提升RL训练稳定性，多项评测显著进步，新增思考模式切换功能，性能全面提升。

7月11日，小米宣布开源全新版本的多模态大模型 Xiaomi MiMo-VL-7B-2508，并推出 SFT 和 RL 两个模型版本。此次升级优化了输出模式，提升了 RL 训练的稳定性，在多项能力评测中取得显著进步。用户可以在“思考模式”和“非思考模式”之间灵活切换，以适应不同场景需求。

与今年5月发布的 MiMo-VL-7B-RL 相比，新版本在多个权威 benchmark 上实现突破：学科推理测试 MMMU 从66.7提升至70.6，首次突破70分；文档理解测试 ChartQA 从91.7提升至94.4；GUI 定位测试 ScreenSpot-v2 从90.5提升至92.5；视频理解测试 VideoMME 从67.4提升至70.8。

在交互体验上，新版本引入了自主控制的思考模式切换功能。默认的“思考模式”展示完整推理过程，性能更全面且控制成功率达100%；而“非思考模式”跳过推理环节，响应速度更快，控制成功率为99.84%，适合对实时性要求高的任务。

小米内部 VLM Arena 评分显示，新版 MiMo-VL-7B-RL-2508 获得1131.2分，明显高于上一代的1093.9分。评测结果显示，该模型在多数基准测试中全面超越前代版本，即使在非思考模式下，也能在感知类任务中保持出色表现。与同类支持思考功能的多模态开源模型相比，MiMo-VL-7B-RL-2508 依然处于领先地位。

(以上内容均由Ai生成)