面壁智能发布MiniCPM-V4.5，4.1亿参数超越GPT-4.1-mini

发布时间：2025年8月26日来源：szf

快速阅读: 面壁智能与清华大学NLP实验室联合发布MiniCPM-V4.5，参数量4.1亿，性能超越GPT-4.1-mini，支持多模态任务，优化边缘设备部署，开源促进学术与商业创新。

面壁智能与清华大学NLP实验室联合发布最新端侧多模态大模型MiniCPM-V4.5，标志着边缘AI技术迈上新台阶。作为MiniCPM系列的最新力作，该模型凭借卓越的性能、高效的部署能力和广泛的应用场景，再次刷新了业界对端侧多模态模型的期待。以下是对其技术突破的详细解析。

技术突破：更小参数，更强性能

MiniCPM-V4.5基于SigLIP2-400M视觉模块和MiniCPM4-3B语言模型构建，总参数量仅为4.1亿，但在多项基准测试中表现出色。官方数据显示，MiniCPM-V4.5在OpenCompass综合评估中取得69.0的平均得分，超越了GPT-4.1-mini（20250414版本，64.5分）和Qwen2.5-VL-3B-Instruct（64.5分），成为端侧多模态模型的性能标杆。与前代MiniCPM-V2.6（8.1亿参数，65.2分）相比，新模型在参数量大幅减少的同时，性能显著提升，充分展现了面壁智能在模型压缩与优化方面的深厚技术积累。

多模态能力升级：视觉、文本、视频全能

MiniCPM-V4.5支持单图、多图及视频理解，并在高分辨率图像处理、OCR（光学字符识别）以及多语言支持方面表现出色。模型可处理高达180万像素（1344×1344）的图像，支持任意宽高比，OCR性能在OCRBench上超越GPT-4o、Gemini1.5Pro等主流专有模型。在Mantis-Eval、BLINK和Video-MME等基准测试中，MiniCPM-V4.5展现了领先的多图推理和视频时空信息处理能力，适用于复杂场景下的内容分析。此外，模型继承了MiniCPM系列的多语言优势，支持英语、中文、德语、法语、意大利语、韩语等30多种语言，为全球用户提供无缝的多模态交互体验。

高效部署：专为边缘设备优化

MiniCPM-V4.5在效率方面表现优异。得益于高token密度（处理180万像素图像仅需640个视觉token，较多数模型减少75%），模型在推理速度、首token延迟、内存占用和功耗上均有显著优化。测试显示，MiniCPM-V4.5在iPhone16Pro Max上实现首token延迟低于2秒，解码速度超过17token/s，且无明显发热问题。这使模型能够轻松部署于智能手机、平板电脑等边缘设备，满足移动、离线和隐私保护场景的需求。此外，MiniCPM-V4.5支持多种部署方式，包括llama.cpp、Ollama、vLLM和SGLang，并提供iOS应用支持，极大降低了开发者的使用门槛。

开放生态：推动学术与商业创新

面壁智能延续其开放源代码的传统，MiniCPM-V4.5遵循Apache2.0许可证，向学术研究人员完全开源，商业用户通过简单注册即可免费使用。这一举措进一步降低了多模态AI的进入壁垒，推动了学术研究与商业应用的双向发展。截至目前，MiniCPM系列已在GitHub和HuggingFace上累计获得超百万次下载，成为边缘AI领域的标杆模型。

MiniCPM-V4.5的发布不仅展示了面壁智能在多模态大模型领域的领先地位，也为边缘AI的普及化应用指明了方向。从实时视频分析到智能文档处理，再到多语言交互，MiniCPM-V4.5的广泛适用性为教育、医疗、内容创作等行业带来了新的可能性。随着端侧计算能力的快速提升和模型效率的持续优化，MiniCPM-V4.5有望成为边缘设备上媲美云端AI的“新常态”。

项目链接：https://huggingface.co/openbmb/MiniCPM-V-4_5

(以上内容均由Ai生成)