阿里Qwen3-VL登顶SpatialBench，3D检测能力再升级

发布时间：2025年11月26日来源：szf

快速阅读: 阿里千问视觉模型Qwen3-VL在SpatialBench上获13.5分，领先同行，具备3D检测、视觉编程等优势，计划2025年开源，2026年推出“视觉-动作”端到端模型。

阿里千问视觉模型在第三方空间推理榜单SpatialBench上取得显著成绩，Qwen3-VL获得13.5分、Qwen2.5-VL获得12.9分，远超Gemini3.0Pro Preview（9.6分）和GPT-5.1（7.5分），进一步接近人类基线80分。SpatialBench专注于2D/3D空间、结构、路径推理，涵盖电路分析、CAD工程、分子生物学等复杂任务，被认为是衡量具身智能的重要标准。

Qwen3-VL的主要亮点包括：

– 3D检测升级：新增旋转框输出与深度估计功能，遮挡场景下的AP值提升了18%，能够准确判断物体方位及视角变化。

– 视觉编程：通过输入草图或10秒短视频，自动生成可运行的Python+OpenCV代码，实现“所见即所得”。

– 规模多样：提供2B、4B、8B、32B等多种密集模型，以及30B-A3B、235B-A22B的MoE版本，在32项核心能力测试中，推理版平均得分高于Gemini2.5-Pro 6.4分。

在开源方面，Qwen2.5-VL已全面开源，Qwen3-VL计划于2025年第二季度开放权重与工具链，并在千问App上提供免费体验。阿里云透露，Qwen3-VL已在物流机器人、AR装配、智慧港口等多个场景进行概念验证，空间定位误差小于2厘米，预计2026年将推出“视觉-动作”端到端模型，为机器人提供实时视觉伺服能力。

(以上内容均由Ai生成)