智谱推出并开源视觉推理模型GLM-4.5V
快速阅读: 7月11日,智谱推出并开源106B参数的视觉推理模型GLM-4.5V,支持图像、视频、文档理解等任务,提供高效多模态推理能力,助力AGI发展。
7月11日,智谱宣布推出并开源全球100B级最佳的开源视觉推理模型GLM-4.5V。这是该公司在通向通用人工智能(AGI)道路上的重要探索成果。该模型在魔搭社区和Hugging Face上同步开源,总参数达到106B,激活参数为12B,标志着多模态推理技术的新里程碑。
GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air,延续了GLM-4.1V-Thinking的技术路线。在41个公开视觉多模态榜单中,GLM-4.5V的综合效果达到同级别开源模型的最高性能,涵盖图像、视频、文档理解以及GUI Agent等常见任务。该模型不仅在多模态榜单上表现出色,还重视真实场景下的表现与可用性。
GLM-4.5V通过高效混合训练,具备处理不同视觉内容的能力,实现全场景视觉推理,包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力。模型新增的“思考模式”开关,允许用户灵活选择快速响应或深度推理,平衡效率与效果。
为了帮助开发者直观体验GLM-4.5V的模型能力,智谱清言同步开源了一款桌面助手应用。该应用可实时截屏、录屏获取屏幕信息,并依托GLM-4.5V处理多种视觉推理任务,如代码辅助、视频内容分析、游戏解答、文档解读等,成为能与用户一起工作娱乐的伙伴。
GLM-4.5V的API现已上线智谱开放平台BigModel.cn,为新老用户提供2000万Tokens的免费资源包。该模型在保持高精度的同时,兼顾推理速度与部署成本,为企业与开发者提供高性价比的多模态AI解决方案。API调用价格低至输入2元/M tokens,输出6元/M tokens,响应速度达到60-80tokens/s。
此外,GLM-4.5V在视觉定位、前端复刻、图像识别与推理、复杂文档深度解读以及GUI Agent能力等方面展现强大性能。例如,它能精准识别和定位目标物体,复刻网页,通过图像中的细微线索推理背景信息,阅读并解读长达数十页的复杂长文本,以及在GUI环境中进行对话问答、图标定位等任务。
GLM-4.5V的技术细节包括视觉编码器、MLP适配器和语言解码器三部分。模型支持64K多模态长上下文,支持图像与视频输入,并通过三维卷积提升视频处理效率。模型采用双三次插值机制,增强对高分辨率及极端宽高比图像的处理能力与稳健性;同时,引入三维旋转位置编码(3D-RoPE),显著强化对多模态信息的三维空间关系的感知与推理能力。
GitHub: https://github.com/zai-org/GLM-V
Hugging Face: https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
魔搭社区: https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
(以上内容均由Ai生成)