AI

中山大学联合美团打造X-SAM模型,单次操作可分割多个对象,20项测试全面领先

发布时间:2025年8月19日    来源:szf
中山大学联合美团打造X-SAM模型,单次操作可分割多个对象,20项测试全面领先

快速阅读: 中山大学、鹏城实验室与美团联合发布X-SAM图像分割模型,突破传统SAM技术限制,实现“任意分割”,大幅提升模型适应性和应用范围,有望推动计算机视觉领域快速发展。

中山大学、鹏城实验室与美团三方联合研发的X-SAM图像分割模型近期正式发布,这款多模态大模型在图像分割领域实现了重要突破,将传统的”分割万物”能力升级为”任意分割”,显著提升了模型的适应性和应用范围。

传统的Segment Anything Model(SAM)虽然在生成密集分割掩码方面表现出色,但其只能接受单一视觉提示输入的设计局限性明显。针对这一技术瓶颈,研究团队创新性地提出了视觉定位分割(Visual Grounded Segmentation, VGS)任务框架,通过交互式视觉提示实现对所有实例对象的精确分割,为多模态大语言模型提供了像素级的理解能力。

X-SAM的技术架构采用了多项创新设计。模型支持统一的输入格式和输出表示,能够处理多种类型的视觉和文本查询输入。其核心的双编码器架构确保了对图像内容和分割特征的深度理解,而分割连接器则提供多尺度信息融合,大幅提升分割精度。

最值得关注的是,X-SAM集成了 最新 的Mask2Former架构作为分割解码器,这使得模型能够在单次操作中同时分割多个目标对象,彻底突破了传统SAM只能处理单一对象的技术限制。这一改进不仅提高了处理效率,也为复杂场景下的批量分割任务提供了可能。

在模型训练方面,研究团队采用了三阶段渐进式训练策略,通过逐步增强的学习过程确保模型性能的稳定提升。经过在20多个主流分割数据集上的全面测试,X-SAM在对话生成分割任务和图文理解任务中均取得了领先的性能表现,验证了其技术方案的有效性。

X-SAM的发布为图像分割技术发展指明了新方向,也为构建更加智能的通用视觉理解系统提供了重要的技术基础。研究团队表示,下一步将重点探索该技术在视频领域的应用拓展,推动图像与视频分割技术的统一化发展,进一步提升机器视觉理解能力的边界。

这项研究成果不仅在学术层面具有重要意义,其在自动驾驶、医疗影像、工业检测等实际应用场景中的潜力也值得期待。随着模型开源和技术推广,预计将推动整个计算机视觉领域的快速发展。

论文地址:https://arxiv.org/pdf/2508.04655 代码地址:https://github.com/wanghao9610/X-SAM Demo地址: https://47.115.200.157:7861

(以上内容均由Ai生成)

你可能还想读

韩半导体出口创纪录,AI芯片繁荣掩盖改革风险

韩半导体出口创纪录,AI芯片繁荣掩盖改革风险

快速阅读: 韩国今年半导体出口预计超1650亿美元,前九月已达1197亿美元,同比增长17%,占总出口23%。增长因人工智能服务器需求和内存价格上涨,在全球经济放缓中展现韧性。 据韩国贸易、工业和资源部本周消息,今年韩国半导体出口预计将达到 […]

发布时间:2025年10月24日
纽约消防局启用AI摄像头,提前预警森林火灾

纽约消防局启用AI摄像头,提前预警森林火灾

快速阅读: 纽约市消防局推出太阳能驱动、AI支持的烟雾检测摄像头,可在火势蔓延前及时发现火灾,计划扩展至五个行政区,增强早期预警能力,保护高风险区域安全。 纽约市消防局(FDNY)的灌木火灾特遣队最近推出了最新的太阳能驱动、人工智能支持的烟 […]

发布时间:2025年10月24日
谷歌云TPU助力Anthropic扩大Claude训练规模

谷歌云TPU助力Anthropic扩大Claude训练规模

快速阅读: Anthropic与Google深化合作,扩大计算能力,支持Claude满足快速增长的客户需求,巩固行业领先位置。 Anthropic 和 Google 有着长期的合作关系,此次合作的进一步扩展将帮助我们继续扩大所需的计算能力, […]

发布时间:2025年10月24日
中兴呼吁重耦合计算与网络,推动AI可持续发展

中兴呼吁重耦合计算与网络,推动AI可持续发展

快速阅读: 中兴通讯CEO徐子阳呼吁电信与计算行业重新耦合,以适应AI需求增长,提出AI Core战略,展示多款支持AI的产品,强调可持续发展与成本控制,与泰国AIS合作提升网络效率。 近年来,电信和计算行业纷纷采取解耦策略,通过技术与产品 […]

发布时间:2025年10月24日
微软推出新AI角色Mico,赋予Copilot虚拟助手新面貌

微软推出新AI角色Mico,赋予Copilot虚拟助手新面貌

快速阅读: 微软推出新AI角色Mico,作为Copilot虚拟助手的化身,旨在为AI聊天机器人增添个性,同时保持友好而不谄媚的形象,通过表情和动作响应用户情绪,目前仅限美国用户使用。 近三十年前令微软Office用户感到厌烦的动画纸夹Cli […]

发布时间:2025年10月24日
英特尔Q3营收137亿美元,同比增长3%成功扭亏为盈

英特尔Q3营收137亿美元,同比增长3%成功扭亏为盈

快速阅读: 英特尔公布2025年第三季度财报,营收137亿美元,同比增长3%,毛利率达38.2%。各业务部门表现不一,CCG营收增长5%,DCAI和代工业务略有下降。期间获多笔重大投资,推进技术创新和市场扩展。 感谢IT之家网友HH_KK、 […]

发布时间:2025年10月24日
微软推出AI伴侣Mico,致敬经典Clippy大眼夹

微软推出AI伴侣Mico,致敬经典Clippy大眼夹

快速阅读: 微软推出AI聊天机器人Mico,具有表情丰富的头像,能倾听互动并根据用户操作变换颜色。首次在美国、加拿大和英国推出,支持“Learn Live”模式,旨在加深人际联系。 10 月 24 日消息,北京时间今天凌晨,微软推出了一款名 […]

发布时间:2025年10月24日
英特尔107制程产能紧张,AI PC出货预期不变

英特尔107制程产能紧张,AI PC出货预期不变

快速阅读: 英特尔在2025Q3财报电话会议中宣布,Intel 10/7制程节点供应紧张,尽管第三季度晶圆交付量超出预期,仍无法满足客户需求。英特尔计划利用现有库存并引导客户转向其他产品,预计2026年一季度供应更紧。同时,英特尔维持年底前 […]

发布时间:2025年10月24日