小米推出AI新成果,开源多模态大模型性能显著提升
快速阅读: 7月11日,小米发布全新多模态大模型 Xiaomi MiMo-VL-7B-2508,优化输出模式,提升RL训练稳定性,多项评测显著进步,新增思考模式切换功能,性能全面提升。
7月11日,小米宣布开源全新版本的多模态大模型 Xiaomi MiMo-VL-7B-2508,并推出 SFT 和 RL 两个模型版本。此次升级优化了输出模式,提升了 RL 训练的稳定性,在多项能力评测中取得显著进步。用户可以在“思考模式”和“非思考模式”之间灵活切换,以适应不同场景需求。
与今年5月发布的 MiMo-VL-7B-RL 相比,新版本在多个权威 benchmark 上实现突破:学科推理测试 MMMU 从66.7提升至70.6,首次突破70分;文档理解测试 ChartQA 从91.7提升至94.4;GUI 定位测试 ScreenSpot-v2 从90.5提升至92.5;视频理解测试 VideoMME 从67.4提升至70.8。
在交互体验上,新版本引入了自主控制的思考模式切换功能。默认的“思考模式”展示完整推理过程,性能更全面且控制成功率达100%;而“非思考模式”跳过推理环节,响应速度更快,控制成功率为99.84%,适合对实时性要求高的任务。
小米内部 VLM Arena 评分显示,新版 MiMo-VL-7B-RL-2508 获得1131.2分,明显高于上一代的1093.9分。评测结果显示,该模型在多数基准测试中全面超越前代版本,即使在非思考模式下,也能在感知类任务中保持出色表现。与同类支持思考功能的多模态开源模型相比,MiMo-VL-7B-RL-2508 依然处于领先地位。
(以上内容均由Ai生成)