如果 AI 像我们一样理解图像会怎样?这个模型可能会

发布时间:2025年3月1日    来源:szf
如果 AI 像我们一样理解图像会怎样?这个模型可能会

快速阅读: 《黑客 Noon》消息,本文提出了一种名为Hi-Mapper的新方法,通过定义概率性层次树并在双曲空间中学习层次结构,以有效识别和分解视觉场景的层次结构。Hi-Mapper在图像分类、对象检测、实例分割和语义分割等任务中表现出色,提升了现有深度神经网络的性能。

作者:权亨俊,延世大学;张晋贤,延世大学;金珍,延世大学;金奎英,延世大学;申光勋,延世大学和韩国科学技术研究院(KIST)。

**摘要**

本文提出了一种新的视觉层次映射器(Hi-Mapper),该映射器调查了视觉场景的层次组织。我们通过新定义概率性层次树,并在双曲空间中学习层次结构来实现这一目标。我们将层次解释融入对比损失,并以数据高效的方式有效地识别视觉层次。通过有效的层次分解和编码过程,所识别的层次成功应用到全局视觉表示中,增强了对整个场景的结构化理解。当与现有深度神经网络集成时,Hi-Mapper 持续提升了这些网络的性能,并且还在多种密集预测任务中展示了其有效性。

**1. 引言**

在计算机视觉领域,理解视觉场景的层次组织是一个重要课题。本文提出了一种新的方法,即视觉层次映射器(Hi-Mapper),以更好地捕捉和表示视觉场景的层次结构。

**2. 相关工作**

近年来,许多研究致力于理解视觉场景的层次结构。例如,Nickel 和 Kiela 提出了 Poincaré 嵌入方法用于学习层次结构表示,而 Gao 等人探讨了在弯曲空间中为少样本学习生成曲率。

**3. 双曲几何**

双曲几何是一种非欧几何,其特点是具有负曲率。本文采用双曲几何框架,以便更好地理解和表示视觉场景的层次结构。

**4. 方法**

**4.1. 概述**

本文提出的 Hi-Mapper 方法包括几个关键步骤,包括概率性层次树的定义、在双曲空间中学习层次结构以及将层次结构融入对比损失。

**4.2. 概率性层次树**

我们定义了一种新的概率性层次树,用于表示视觉场景的多层次结构。这种树结构可以更灵活地表达层次关系。

**4.3. 视觉层次分解**

为了有效分解视觉场景,我们采用了视觉层次分解技术,将复杂场景分解成多个层次结构。

**4.4. 在双曲空间中学习层次结构**

我们在双曲空间中学习层次结构,以更好地捕捉视觉场景的内在层次关系。

**4.5. 视觉层次编码**

通过有效的层次编码过程,我们能够将识别出的层次结构应用于全局视觉表示,从而增强对整个场景的理解。

**5. 实验和结果**

**5.1. 图像分类**

实验结果显示,Hi-Mapper 在图像分类任务中取得了显著效果。

**5.2. 对象检测和实例分割**

在对象检测和实例分割任务中,Hi-Mapper 也表现出色。

**5.3. 语义分割**

在语义分割任务中,Hi-Mapper 同样取得了良好的性能。

**5.4. 可视化**

通过可视化技术,我们可以直观地展示 Hi-Mapper 的识别结果。

**6. 剥离研究和讨论**

通过对 Hi-Mapper 方法的深入分析,我们发现其在不同任务中的表现优异。

**7. 结论**

本文提出的 Hi-Mapper 方法在多种密集预测任务中展示了其有效性。未来的研究将进一步探索 Hi-Mapper 的潜力。

**参考文献**

[23] 马克西米利安·尼克尔和杜威·基拉。Poincaré 嵌入用于学习层次结构表示。神经信息处理系统进展,30,2017年。

[24] 马克西米利安·尼克尔和杜威·基拉。在洛伦兹双曲几何模型中学习连续层次。国际机器学习会议论文集,第3779-3788页。PMLR,2018年。

[25] 高振涛、吴雨薇、贾元德和哈拉迪。在弯曲空间中为少样本学习生成曲率。国际计算机视觉会议论文集,第8691-8700页,2021年。

[26] 亚历山大·蒂夫鲁、加里·贝辛格尔和奥克塔维安-尤根·盖纳。Poincaré 手套:超球面词嵌入。arXiv 预印本 arXiv:1810.06546,2018年。

[27] 朱永东、周迪、肖静慧、姜欣、陈晓和刘群。Hypertext:将 FastText 赋予超球面几何。arXiv 预印本 arXiv:2010.16143,2020年。

[28] 伊内斯·查米、英萨特·尹、克里斯托弗·里和尤雷·莱斯科维奇。超球面图卷积神经网络。神经信息处理系统进展,32,2019年。

[29] 卡兰·德萨伊、马克西米利安·尼克尔、塔姆奈·拉杰普罗希特、贾斯汀·约翰逊和沙姆库哈·拉马库里什纳·维达南塔姆。超球面图像文本表示。国际机器学习会议论文集,第7694-7731页。PMLR,2023年。

[30] 卢克·维尔尼斯和安德鲁·麦卡勒姆。通过高斯嵌入的词表示方法。国际学习表征会议论文集,2015年。

[31] 本·阿提瓦拉特坎和安德鲁·戈登·威尔逊。多模态词分布。arXiv 预印本 arXiv:1704.08424,2017年。

[32] 本·阿提瓦拉特坎和安德鲁·戈登·威尔逊。分层密度排序嵌入。国际学习表征会议论文集,2018年。

[33] 杨耿聪、张晶一、张勇、吴宝元和杨玉军。场景图生成的概率语义模糊建模。国际计算机视觉与模式识别会议论文集,第12527-12536页,2021年。

[34] 何凯明、张祥宇、任少青和孙剑。深度残差学习用于图像识别。国际计算机视觉与模式识别会议论文集,第770-778页,2016年。

[35] 托夫鲁·图弗鲁恩、马蒂厄·科尔德、马蒂亚斯·杜泽、弗朗西斯科·马萨、亚历山大·萨布莱罗尔斯和赫维·耶戈。通过注意力训练数据高效图像变换器和蒸馏。国际机器学习会议论文集,第10347-10357页。PMLR,2021年。

[36] 戴佳、董威、理查德·索彻、李莉佳、李凯和李菲菲。ImageNet:大规模分层图像数据库。2009年IEEE计算机视觉与模式识别会议论文集,第248-255页。IEEE,2009年。

[37] 林天易、迈克尔·马埃雷、瑟热·贝隆、詹姆斯·黑斯、皮耶罗·佩罗纳、德瓦·拉马纳南、皮奥特·多尔和C·劳伦斯·齐廷克。Microsoft COCO:上下文中的常见物体。计算机视觉–ECCV 2014:第13届欧洲会议论文集,第V 13部分,第740-755页。Springer,2014年。

[38] 周博雷、赵航、普伊·普伊格、桑贾·菲德尔、阿黛拉·巴里乌索和安东尼奥·托尔拉巴。通过ADE20K 数据集进行场景解析。国际计算机视觉与模式识别会议论文集,第633-641页,2017年。

[39] 波莱亚·费尔岑斯瓦尔布、罗斯·B·吉尔希克、大卫·麦克阿利斯特和德瓦·拉马纳南。基于判别性训练的部分模型目标检测。IEEE模式分析与机器智能汇刊,32(9):1627-1645,2009年。

[40] 韩凤官和朱松春。基于属性语法的自下而上/自上而下图像解析。IEEE模式分析与机器智能汇刊,31(1):59-73,2008年。

[41] 埃里克·B·苏德思、安东尼奥·托尔拉巴、威廉·T·弗里曼和艾伦·S·威尔斯基。学习场景、对象和部分的分层模型。第十届IEEE国际计算机视觉大会(ICCV’05)论文集,第1卷,第2卷,第1331-1338页。IEEE,2005年。

[42] 屠卓文、陈向荣、艾伦·L·尤利尔和朱松春。图像解析:统一分割、检测和识别。国际计算机视觉杂志,63:113-140,2005年。

[43] 吴天福和朱松春。关于或图中自下而上和自上而下推理过程的数值研究。国际计算机视觉杂志,93:226-252,2011年。

[44] 王文官、张志杰、祁思远、沈建兵、潘艳伟和邵岭。人类解析的构成性神经信息融合学习。国际计算机视觉会议论文集,第5703-5713页,2019年。

[45] 王文官、朱海龙、戴继丰、潘艳伟、沈建兵和邵岭。具有类型化部分关系推理的分层人体解析方法。国际计算机视觉与模式识别会议论文集,第8929-8939页,2020年。

[46] 沙罗·布朗、帕特里克·埃塞和比约恩·奥默。无监督解缠发现无监督部分。模式识别:第42届德国DAGM GCPR会议论文集,第345-359页。Springer,2021年。

[47] 苏巴哈塔·乔杜里、伊罗·拉伊娜、克里斯蒂安·鲁普雷希特和安德烈·维达尔迪。从对比重建中无监督地发现部分。神经信息处理系统进展,34:28104-28118,2021年。

[48] 胡维昌、瓦伦特·贾姆帕尼、李思飞、帕夫洛·莫尔查诺夫、杨明焕和詹·卡特。Scops:自监督共部段分割。国际计算机视觉与模式识别会议论文集,第869-878页,2019年。

[49] 库伊·柯、莫桑伍和吴星宇。学习分层图像分割以进行识别和通过识别。第十二届国际学习表征会议论文集,2024年。

[50] 陈善均、吴松俊、德·雷费扎伊·德·雷赞德、雅尼斯·卡拉兰迪斯和戴安·拉卢斯。跨模态检索的概率嵌入方法。国际计算机视觉与模式识别会议论文集,第8415-8424页,2021年。

[51] 施一冲和安尼尔·K·贾因。概率人脸嵌入。国际计算机视觉会议论文集,第6902-6911页,2019年。

[52] 公园真真、李智勇、金智一和孙光勋。视频对比学习的概率表示。国际计算机视觉与模式识别会议论文集,第14711-14721页,2022年。

[53] 马克西米利安·尼克尔和杜威·基拉。Poincaré 嵌入用于学习层次结构表示。神经信息处理系统进展,30,2017年。

[54] 米娜·加迪米·阿提格,尤利安·斯科普,埃尔曼·阿卡尔,纳内·范诺德和帕斯卡·梅特斯。双曲几何图像分割。在《计算机视觉和模式识别会议论文集》中,第4453-4462页,2022年。

[55] 魏真真,梅赫梅特·吉雷·奥古特,沙伊·利蒙奇克和塞尔·叶·昂。利用层次自监督方法发现实例分割中的长尾现象。在《计算机视觉和模式识别会议论文集》中,第2603-2612页,2021年。

[56] 瓦连丁·赫鲁尔科夫,莱拉·米尔瓦赫巴霍娃,叶夫根尼娅·乌斯蒂诺娃,伊万·奥斯莱德茨和维克托·伦皮茨基。双曲几何图像嵌入。在《计算机视觉和模式识别会议论文集》中,第6418-6428页,2020年。

[57] 德克·P·金玛,蒂姆·萨利曼斯和马克·韦林。基于变分dropout与局部重参数化技巧。在《神经信息处理系统会议论文集》中,第28卷,2015年。

[58] 阿龙·范登奥德,亚泽·李和奥里奥尔·文纳尔斯。基于对比预测编码的表征学习。arXiv预印本arXiv:1807.03748,2018年。

[59] 明星·谭和屈克·勒。重新审视卷积神经网络的模型缩放策略。在《机器学习国际会议论文集》中,第6105-6114页,2019年。

[60] 雷泽·刘,余通,岳超,韩欢,余旭轩,郑征,史蒂芬·林和鲍宁·郭。Swin变换器模型:使用移位窗口的分层视觉变换器。在《计算机视觉国际会议论文集》中,第10012-10022页,2021年。

[61] 王文海,谢恩泽,李翔,范登平,宋凯涛,梁鼎亮,卢彤,罗萍和邵岭。基于金字塔视觉变换器的改进基准模型。《计算视觉媒体》,第8卷第3期,第415-424页,2022年。

[62] 丁明宇,肖斌,诺埃尔·科德拉,罗萍,王井东和袁路。双注意力机制视觉变换器。在《欧洲计算机视觉会议论文集》中,第74-92页,2022年。

[63] 张鹏川,戴希扬,杨建伟,肖斌,袁路,张磊和高建峰。用于高分辨率图像编码的新型视觉变换器。在《计算机视觉国际会议论文集》中,第2998-3008页,2021年。

[64] 林宗义,普里亚·戈亚尔,罗斯·吉尔希克,何开明和彼得·多罗尔。密集目标检测的焦点损失函数。在《IEEE国际计算机视觉会议论文集》中,第2980-2988页,2017年。

[65] 艾拉德·霍弗,塔尔·本努恩,伊泰·胡巴拉,尼夫·吉拉迪,托尔斯滕·霍夫勒和丹尼尔·索德里。通过实例重复增强批次以提升泛化能力。在《计算机视觉和模式识别会议论文集》中,第8129-8138页,2020年。

[66] 伊利亚·洛什奇洛夫和弗兰克·赫特。解耦权重衰减正则化方法。arXiv预印本arXiv:1711.05101,2017年。

[67] 何凯明,乔治亚·吉奥克斯,彼得·多罗尔和罗斯·吉尔希克。Mask R-CNN模型。在《IEEE国际计算机视觉会议论文集》中,第2961-2969页,2017年。

[68] 李阳浩,韩子茂,罗斯·吉尔希克和何开明。探索简单视觉变换器作为目标检测的骨干模型。在《欧洲计算机视觉会议论文集》中,第280-296页,2022年。

[69] 亚历山大·基里洛夫,罗斯·吉尔希克,何开明和彼得·多罗尔。全景特征金字塔网络模型。在《计算机视觉和模式识别会议论文集》中,第6399-6408页,2019年。

[70] 肖特,刘英成,周博雷,姜云宁和孙建。统一感知解析用于场景理解任务。在《欧洲计算机视觉会议论文集》中,第418-434页,2018年。

(以上内容均由Ai生成)

关键词: Ai图像模型理解

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日