AI

面壁智能发布MiniCPM-V4.5,4.1亿参数超越GPT-4.1-mini

发布时间:2025年8月26日    来源:szf
面壁智能发布MiniCPM-V4.5,4.1亿参数超越GPT-4.1-mini

快速阅读: 面壁智能与清华大学NLP实验室联合发布MiniCPM-V4.5,参数量4.1亿,性能超越GPT-4.1-mini,支持多模态任务,优化边缘设备部署,开源促进学术与商业创新。

面壁智能与清华大学NLP实验室联合发布最新端侧多模态大模型MiniCPM-V4.5,标志着边缘AI技术迈上新台阶。作为MiniCPM系列的最新力作,该模型凭借卓越的性能、高效的部署能力和广泛的应用场景,再次刷新了业界对端侧多模态模型的期待。以下是对其技术突破的详细解析。

技术突破:更小参数,更强性能

MiniCPM-V4.5基于SigLIP2-400M视觉模块和MiniCPM4-3B语言模型构建,总参数量仅为4.1亿,但在多项基准测试中表现出色。官方数据显示,MiniCPM-V4.5在OpenCompass综合评估中取得69.0的平均得分,超越了GPT-4.1-mini(20250414版本,64.5分)和Qwen2.5-VL-3B-Instruct(64.5分),成为端侧多模态模型的性能标杆。与前代MiniCPM-V2.6(8.1亿参数,65.2分)相比,新模型在参数量大幅减少的同时,性能显著提升,充分展现了面壁智能在模型压缩与优化方面的深厚技术积累。

多模态能力升级:视觉、文本、视频全能

MiniCPM-V4.5支持单图、多图及视频理解,并在高分辨率图像处理、OCR(光学字符识别)以及多语言支持方面表现出色。模型可处理高达180万像素(1344×1344)的图像,支持任意宽高比,OCR性能在OCRBench上超越GPT-4o、Gemini1.5Pro等主流专有模型。在Mantis-Eval、BLINK和Video-MME等基准测试中,MiniCPM-V4.5展现了领先的多图推理和视频时空信息处理能力,适用于复杂场景下的内容分析。此外,模型继承了MiniCPM系列的多语言优势,支持英语、中文、德语、法语、意大利语、韩语等30多种语言,为全球用户提供无缝的多模态交互体验。

高效部署:专为边缘设备优化

MiniCPM-V4.5在效率方面表现优异。得益于高token密度(处理180万像素图像仅需640个视觉token,较多数模型减少75%),模型在推理速度、首token延迟、内存占用和功耗上均有显著优化。测试显示,MiniCPM-V4.5在iPhone16Pro Max上实现首token延迟低于2秒,解码速度超过17token/s,且无明显发热问题。这使模型能够轻松部署于智能手机、平板电脑等边缘设备,满足移动、离线和隐私保护场景的需求。此外,MiniCPM-V4.5支持多种部署方式,包括llama.cpp、Ollama、vLLM和SGLang,并提供iOS应用支持,极大降低了开发者的使用门槛。

开放生态:推动学术与商业创新

面壁智能延续其开放源代码的传统,MiniCPM-V4.5遵循Apache2.0许可证,向学术研究人员完全开源,商业用户通过简单注册即可免费使用。这一举措进一步降低了多模态AI的进入壁垒,推动了学术研究与商业应用的双向发展。截至目前,MiniCPM系列已在GitHub和HuggingFace上累计获得超百万次下载,成为边缘AI领域的标杆模型。

MiniCPM-V4.5的发布不仅展示了面壁智能在多模态大模型领域的领先地位,也为边缘AI的普及化应用指明了方向。从实时视频分析到智能文档处理,再到多语言交互,MiniCPM-V4.5的广泛适用性为教育、医疗、内容创作等行业带来了新的可能性。随着端侧计算能力的快速提升和模型效率的持续优化,MiniCPM-V4.5有望成为边缘设备上媲美云端AI的“新常态”。

项目链接:https://huggingface.co/openbmb/MiniCPM-V-4_5

(以上内容均由Ai生成)

你可能还想读

印尼副部长呼吁谨慎使用AI进行公共沟通

印尼副部长呼吁谨慎使用AI进行公共沟通

快速阅读: 印度尼西亚通信和数字事务部副部长Nezar Patria呼吁公共关系专业人员谨慎、道德地使用AI,强调AI虽具潜力,但需人类监督与伦理责任,确保沟通质量与真实性。 雅加达(ANTARA)- 印度尼西亚通信和数字事务部副部长Nez […]

发布时间:2025年10月23日
名人及AI巨头呼吁停止追求超智能

名人及AI巨头呼吁停止追求超智能

快速阅读: 超过700名科学家、政治人物和名人呼吁暂停开发超人工智能,直至技术安全可控且获公众支持。未来生命研究所发布公开信,强调当前AI发展路径与公众期望、安全性及伦理标准脱节。 超过700名科学家、政治人物和名人,包括哈里王子、理查德· […]

发布时间:2025年10月23日
保守活动人士因谷歌AI生成虚假信息起诉谷歌

保守活动人士因谷歌AI生成虚假信息起诉谷歌

快速阅读: 保守活动人士罗比·斯塔巴克因谷歌AI系统生成关于他的虚假信息,将其诉至特拉华州法院,要求至少1500万美元赔偿。谷歌称此为Bard误判所致,已尽力处理。 保守活动人士罗比·斯塔巴克周三对谷歌提起诉讼,指控这家科技巨头的人工智能系 […]

发布时间:2025年10月23日
拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

快速阅读: 拉尔夫劳伦与微软合作推出AI对话购物工具“Ask Ralph”,提供个性化风格灵感,强调技术应提升品牌体验而非目的本身,展现AI个性化体验趋势。 9月,拉尔夫劳伦(与微软合作)发布了“Ask Ralph”,这是一款被描述为“由人 […]

发布时间:2025年10月23日
荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

快速阅读: 荣耀董事长吴晖宣布转型为AI终端生态公司,提出1 x 3 x N战略,涵盖HONOR AI Connect平台及多项赋能措施,推动AI场景化落地,涉及教育、家居、健康等多领域。 感谢IT之家网友 風見暉一 的线索投递! IT之家 […]

发布时间:2025年10月23日
微软Photos推AI绘图与智能重塑新功能

微软Photos推AI绘图与智能重塑新功能

快速阅读: 微软在其Photos应用中推出AI驱动的Restyle Image和Image Creator功能,前者可智能重塑照片风格,后者能根据描述生成高质量图像,均支持隐私保护,旨在提升图像创作体验。 微软近日在其 Photos(照片) […]

发布时间:2025年10月23日
2025新一代人工智能创业大赛启动 全球招募火热进行中

2025新一代人工智能创业大赛启动 全球招募火热进行中

快速阅读: 网易传媒启动2025新一代人工智能创业大赛,聚焦AI新技术与应用,设三大赛道,面向A轮前团队,奖金总额100万元,提供多维指导与资源支持。 2025年10月22日,网易传媒正式启动 “2025新一代人工智能创业大赛”,面向全球创 […]

发布时间:2025年10月23日
谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

快速阅读: 谷歌发布量子芯片Willow,成功运行“量子回声”算法,实现首个可验证的量子优势,比超级计算机快13,000倍,为新药研发和材料科学开辟新途径。 继量子计算研究团队荣获诺贝尔物理学奖之后,谷歌再次取得突破性进展。当地时间10月2 […]

发布时间:2025年10月23日