智谱推出并开源视觉推理模型GLM-4.5V

发布时间：2025年8月12日来源：szf

快速阅读: 7月11日，智谱推出并开源106B参数的视觉推理模型GLM-4.5V，支持图像、视频、文档理解等任务，提供高效多模态推理能力，助力AGI发展。

7月11日，智谱宣布推出并开源全球100B级最佳的开源视觉推理模型GLM-4.5V。这是该公司在通向通用人工智能（AGI）道路上的重要探索成果。该模型在魔搭社区和Hugging Face上同步开源，总参数达到106B，激活参数为12B，标志着多模态推理技术的新里程碑。

GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air，延续了GLM-4.1V-Thinking的技术路线。在41个公开视觉多模态榜单中，GLM-4.5V的综合效果达到同级别开源模型的最高性能，涵盖图像、视频、文档理解以及GUI Agent等常见任务。该模型不仅在多模态榜单上表现出色，还重视真实场景下的表现与可用性。

GLM-4.5V通过高效混合训练，具备处理不同视觉内容的能力，实现全场景视觉推理，包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力。模型新增的“思考模式”开关，允许用户灵活选择快速响应或深度推理，平衡效率与效果。

为了帮助开发者直观体验GLM-4.5V的模型能力，智谱清言同步开源了一款桌面助手应用。该应用可实时截屏、录屏获取屏幕信息，并依托GLM-4.5V处理多种视觉推理任务，如代码辅助、视频内容分析、游戏解答、文档解读等，成为能与用户一起工作娱乐的伙伴。

GLM-4.5V的API现已上线智谱开放平台BigModel.cn，为新老用户提供2000万Tokens的免费资源包。该模型在保持高精度的同时，兼顾推理速度与部署成本，为企业与开发者提供高性价比的多模态AI解决方案。API调用价格低至输入2元/M tokens，输出6元/M tokens，响应速度达到60-80tokens/s。

此外，GLM-4.5V在视觉定位、前端复刻、图像识别与推理、复杂文档深度解读以及GUI Agent能力等方面展现强大性能。例如，它能精准识别和定位目标物体，复刻网页，通过图像中的细微线索推理背景信息，阅读并解读长达数十页的复杂长文本，以及在GUI环境中进行对话问答、图标定位等任务。

GLM-4.5V的技术细节包括视觉编码器、MLP适配器和语言解码器三部分。模型支持64K多模态长上下文，支持图像与视频输入，并通过三维卷积提升视频处理效率。模型采用双三次插值机制，增强对高分辨率及极端宽高比图像的处理能力与稳健性；同时，引入三维旋转位置编码（3D-RoPE），显著强化对多模态信息的三维空间关系的感知与推理能力。

GitHub: https://github.com/zai-org/GLM-V

Hugging Face: https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

魔搭社区: https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

(以上内容均由Ai生成)