中山大学联合美团打造X-SAM模型，单次操作可分割多个对象，20项测试全面领先

发布时间：2025年8月19日来源：szf

快速阅读: 中山大学、鹏城实验室与美团联合发布X-SAM图像分割模型，突破传统SAM技术限制，实现“任意分割”，大幅提升模型适应性和应用范围，有望推动计算机视觉领域快速发展。

中山大学、鹏城实验室与美团三方联合研发的X-SAM图像分割模型近期正式发布,这款多模态大模型在图像分割领域实现了重要突破,将传统的”分割万物”能力升级为”任意分割”,显著提升了模型的适应性和应用范围。

传统的Segment Anything Model(SAM)虽然在生成密集分割掩码方面表现出色,但其只能接受单一视觉提示输入的设计局限性明显。针对这一技术瓶颈,研究团队创新性地提出了视觉定位分割(Visual Grounded Segmentation, VGS)任务框架,通过交互式视觉提示实现对所有实例对象的精确分割,为多模态大语言模型提供了像素级的理解能力。

X-SAM的技术架构采用了多项创新设计。模型支持统一的输入格式和输出表示,能够处理多种类型的视觉和文本查询输入。其核心的双编码器架构确保了对图像内容和分割特征的深度理解,而分割连接器则提供多尺度信息融合,大幅提升分割精度。

最值得关注的是,X-SAM集成了最新的Mask2Former架构作为分割解码器,这使得模型能够在单次操作中同时分割多个目标对象,彻底突破了传统SAM只能处理单一对象的技术限制。这一改进不仅提高了处理效率,也为复杂场景下的批量分割任务提供了可能。

在模型训练方面,研究团队采用了三阶段渐进式训练策略,通过逐步增强的学习过程确保模型性能的稳定提升。经过在20多个主流分割数据集上的全面测试,X-SAM在对话生成分割任务和图文理解任务中均取得了领先的性能表现,验证了其技术方案的有效性。

X-SAM的发布为图像分割技术发展指明了新方向,也为构建更加智能的通用视觉理解系统提供了重要的技术基础。研究团队表示,下一步将重点探索该技术在视频领域的应用拓展,推动图像与视频分割技术的统一化发展,进一步提升机器视觉理解能力的边界。

这项研究成果不仅在学术层面具有重要意义,其在自动驾驶、医疗影像、工业检测等实际应用场景中的潜力也值得期待。随着模型开源和技术推广,预计将推动整个计算机视觉领域的快速发展。

论文地址:https://arxiv.org/pdf/2508.04655 代码地址:https://github.com/wanghao9610/X-SAM Demo地址: https://47.115.200.157:7861

(以上内容均由Ai生成)

中山大学联合美团打造X-SAM模型，单次操作可分割多个对象，20项测试全面领先

你可能还想读

软银收购DigitalBridge加码AI算力布局

贝莱德：AI投资将驱动美国经济韧性增长

硅谷预言：AI将重塑工作与收入

AI重塑广告业：从执行到智能协同

AI推动数据分析普及，渠道伙伴机遇扩大

欧盟报告：AI训练应借鉴Napster版权教训

特朗普推AI新政，各州监管加速推进

塔塔与英特尔携手布局半导体与AI