如果 AI 像我们一样理解图像会怎样?这个模型可能会
快速阅读: 《黑客 Noon》消息,本文提出了一种名为Hi-Mapper的新方法,通过定义概率性层次树并在双曲空间中学习层次结构,以有效识别和分解视觉场景的层次结构。Hi-Mapper在图像分类、对象检测、实例分割和语义分割等任务中表现出色,提升了现有深度神经网络的性能。
作者:权亨俊,延世大学;张晋贤,延世大学;金珍,延世大学;金奎英,延世大学;申光勋,延世大学和韩国科学技术研究院(KIST)。
**摘要**
本文提出了一种新的视觉层次映射器(Hi-Mapper),该映射器调查了视觉场景的层次组织。我们通过新定义概率性层次树,并在双曲空间中学习层次结构来实现这一目标。我们将层次解释融入对比损失,并以数据高效的方式有效地识别视觉层次。通过有效的层次分解和编码过程,所识别的层次成功应用到全局视觉表示中,增强了对整个场景的结构化理解。当与现有深度神经网络集成时,Hi-Mapper 持续提升了这些网络的性能,并且还在多种密集预测任务中展示了其有效性。
**1. 引言**
在计算机视觉领域,理解视觉场景的层次组织是一个重要课题。本文提出了一种新的方法,即视觉层次映射器(Hi-Mapper),以更好地捕捉和表示视觉场景的层次结构。
**2. 相关工作**
近年来,许多研究致力于理解视觉场景的层次结构。例如,Nickel 和 Kiela 提出了 Poincaré 嵌入方法用于学习层次结构表示,而 Gao 等人探讨了在弯曲空间中为少样本学习生成曲率。
**3. 双曲几何**
双曲几何是一种非欧几何,其特点是具有负曲率。本文采用双曲几何框架,以便更好地理解和表示视觉场景的层次结构。
**4. 方法**
**4.1. 概述**
本文提出的 Hi-Mapper 方法包括几个关键步骤,包括概率性层次树的定义、在双曲空间中学习层次结构以及将层次结构融入对比损失。
**4.2. 概率性层次树**
我们定义了一种新的概率性层次树,用于表示视觉场景的多层次结构。这种树结构可以更灵活地表达层次关系。
**4.3. 视觉层次分解**
为了有效分解视觉场景,我们采用了视觉层次分解技术,将复杂场景分解成多个层次结构。
**4.4. 在双曲空间中学习层次结构**
我们在双曲空间中学习层次结构,以更好地捕捉视觉场景的内在层次关系。
**4.5. 视觉层次编码**
通过有效的层次编码过程,我们能够将识别出的层次结构应用于全局视觉表示,从而增强对整个场景的理解。
**5. 实验和结果**
**5.1. 图像分类**
实验结果显示,Hi-Mapper 在图像分类任务中取得了显著效果。
**5.2. 对象检测和实例分割**
在对象检测和实例分割任务中,Hi-Mapper 也表现出色。
**5.3. 语义分割**
在语义分割任务中,Hi-Mapper 同样取得了良好的性能。
**5.4. 可视化**
通过可视化技术,我们可以直观地展示 Hi-Mapper 的识别结果。
**6. 剥离研究和讨论**
通过对 Hi-Mapper 方法的深入分析,我们发现其在不同任务中的表现优异。
**7. 结论**
本文提出的 Hi-Mapper 方法在多种密集预测任务中展示了其有效性。未来的研究将进一步探索 Hi-Mapper 的潜力。
**参考文献**
[23] 马克西米利安·尼克尔和杜威·基拉。Poincaré 嵌入用于学习层次结构表示。神经信息处理系统进展,30,2017年。
[24] 马克西米利安·尼克尔和杜威·基拉。在洛伦兹双曲几何模型中学习连续层次。国际机器学习会议论文集,第3779-3788页。PMLR,2018年。
[25] 高振涛、吴雨薇、贾元德和哈拉迪。在弯曲空间中为少样本学习生成曲率。国际计算机视觉会议论文集,第8691-8700页,2021年。
[26] 亚历山大·蒂夫鲁、加里·贝辛格尔和奥克塔维安-尤根·盖纳。Poincaré 手套:超球面词嵌入。arXiv 预印本 arXiv:1810.06546,2018年。
[27] 朱永东、周迪、肖静慧、姜欣、陈晓和刘群。Hypertext:将 FastText 赋予超球面几何。arXiv 预印本 arXiv:2010.16143,2020年。
[28] 伊内斯·查米、英萨特·尹、克里斯托弗·里和尤雷·莱斯科维奇。超球面图卷积神经网络。神经信息处理系统进展,32,2019年。
[29] 卡兰·德萨伊、马克西米利安·尼克尔、塔姆奈·拉杰普罗希特、贾斯汀·约翰逊和沙姆库哈·拉马库里什纳·维达南塔姆。超球面图像文本表示。国际机器学习会议论文集,第7694-7731页。PMLR,2023年。
[30] 卢克·维尔尼斯和安德鲁·麦卡勒姆。通过高斯嵌入的词表示方法。国际学习表征会议论文集,2015年。
[31] 本·阿提瓦拉特坎和安德鲁·戈登·威尔逊。多模态词分布。arXiv 预印本 arXiv:1704.08424,2017年。
[32] 本·阿提瓦拉特坎和安德鲁·戈登·威尔逊。分层密度排序嵌入。国际学习表征会议论文集,2018年。
[33] 杨耿聪、张晶一、张勇、吴宝元和杨玉军。场景图生成的概率语义模糊建模。国际计算机视觉与模式识别会议论文集,第12527-12536页,2021年。
[34] 何凯明、张祥宇、任少青和孙剑。深度残差学习用于图像识别。国际计算机视觉与模式识别会议论文集,第770-778页,2016年。
[35] 托夫鲁·图弗鲁恩、马蒂厄·科尔德、马蒂亚斯·杜泽、弗朗西斯科·马萨、亚历山大·萨布莱罗尔斯和赫维·耶戈。通过注意力训练数据高效图像变换器和蒸馏。国际机器学习会议论文集,第10347-10357页。PMLR,2021年。
[36] 戴佳、董威、理查德·索彻、李莉佳、李凯和李菲菲。ImageNet:大规模分层图像数据库。2009年IEEE计算机视觉与模式识别会议论文集,第248-255页。IEEE,2009年。
[37] 林天易、迈克尔·马埃雷、瑟热·贝隆、詹姆斯·黑斯、皮耶罗·佩罗纳、德瓦·拉马纳南、皮奥特·多尔和C·劳伦斯·齐廷克。Microsoft COCO:上下文中的常见物体。计算机视觉–ECCV 2014:第13届欧洲会议论文集,第V 13部分,第740-755页。Springer,2014年。
[38] 周博雷、赵航、普伊·普伊格、桑贾·菲德尔、阿黛拉·巴里乌索和安东尼奥·托尔拉巴。通过ADE20K 数据集进行场景解析。国际计算机视觉与模式识别会议论文集,第633-641页,2017年。
[39] 波莱亚·费尔岑斯瓦尔布、罗斯·B·吉尔希克、大卫·麦克阿利斯特和德瓦·拉马纳南。基于判别性训练的部分模型目标检测。IEEE模式分析与机器智能汇刊,32(9):1627-1645,2009年。
[40] 韩凤官和朱松春。基于属性语法的自下而上/自上而下图像解析。IEEE模式分析与机器智能汇刊,31(1):59-73,2008年。
[41] 埃里克·B·苏德思、安东尼奥·托尔拉巴、威廉·T·弗里曼和艾伦·S·威尔斯基。学习场景、对象和部分的分层模型。第十届IEEE国际计算机视觉大会(ICCV’05)论文集,第1卷,第2卷,第1331-1338页。IEEE,2005年。
[42] 屠卓文、陈向荣、艾伦·L·尤利尔和朱松春。图像解析:统一分割、检测和识别。国际计算机视觉杂志,63:113-140,2005年。
[43] 吴天福和朱松春。关于或图中自下而上和自上而下推理过程的数值研究。国际计算机视觉杂志,93:226-252,2011年。
[44] 王文官、张志杰、祁思远、沈建兵、潘艳伟和邵岭。人类解析的构成性神经信息融合学习。国际计算机视觉会议论文集,第5703-5713页,2019年。
[45] 王文官、朱海龙、戴继丰、潘艳伟、沈建兵和邵岭。具有类型化部分关系推理的分层人体解析方法。国际计算机视觉与模式识别会议论文集,第8929-8939页,2020年。
[46] 沙罗·布朗、帕特里克·埃塞和比约恩·奥默。无监督解缠发现无监督部分。模式识别:第42届德国DAGM GCPR会议论文集,第345-359页。Springer,2021年。
[47] 苏巴哈塔·乔杜里、伊罗·拉伊娜、克里斯蒂安·鲁普雷希特和安德烈·维达尔迪。从对比重建中无监督地发现部分。神经信息处理系统进展,34:28104-28118,2021年。
[48] 胡维昌、瓦伦特·贾姆帕尼、李思飞、帕夫洛·莫尔查诺夫、杨明焕和詹·卡特。Scops:自监督共部段分割。国际计算机视觉与模式识别会议论文集,第869-878页,2019年。
[49] 库伊·柯、莫桑伍和吴星宇。学习分层图像分割以进行识别和通过识别。第十二届国际学习表征会议论文集,2024年。
[50] 陈善均、吴松俊、德·雷费扎伊·德·雷赞德、雅尼斯·卡拉兰迪斯和戴安·拉卢斯。跨模态检索的概率嵌入方法。国际计算机视觉与模式识别会议论文集,第8415-8424页,2021年。
[51] 施一冲和安尼尔·K·贾因。概率人脸嵌入。国际计算机视觉会议论文集,第6902-6911页,2019年。
[52] 公园真真、李智勇、金智一和孙光勋。视频对比学习的概率表示。国际计算机视觉与模式识别会议论文集,第14711-14721页,2022年。
[53] 马克西米利安·尼克尔和杜威·基拉。Poincaré 嵌入用于学习层次结构表示。神经信息处理系统进展,30,2017年。
[54] 米娜·加迪米·阿提格,尤利安·斯科普,埃尔曼·阿卡尔,纳内·范诺德和帕斯卡·梅特斯。双曲几何图像分割。在《计算机视觉和模式识别会议论文集》中,第4453-4462页,2022年。
[55] 魏真真,梅赫梅特·吉雷·奥古特,沙伊·利蒙奇克和塞尔·叶·昂。利用层次自监督方法发现实例分割中的长尾现象。在《计算机视觉和模式识别会议论文集》中,第2603-2612页,2021年。
[56] 瓦连丁·赫鲁尔科夫,莱拉·米尔瓦赫巴霍娃,叶夫根尼娅·乌斯蒂诺娃,伊万·奥斯莱德茨和维克托·伦皮茨基。双曲几何图像嵌入。在《计算机视觉和模式识别会议论文集》中,第6418-6428页,2020年。
[57] 德克·P·金玛,蒂姆·萨利曼斯和马克·韦林。基于变分dropout与局部重参数化技巧。在《神经信息处理系统会议论文集》中,第28卷,2015年。
[58] 阿龙·范登奥德,亚泽·李和奥里奥尔·文纳尔斯。基于对比预测编码的表征学习。arXiv预印本arXiv:1807.03748,2018年。
[59] 明星·谭和屈克·勒。重新审视卷积神经网络的模型缩放策略。在《机器学习国际会议论文集》中,第6105-6114页,2019年。
[60] 雷泽·刘,余通,岳超,韩欢,余旭轩,郑征,史蒂芬·林和鲍宁·郭。Swin变换器模型:使用移位窗口的分层视觉变换器。在《计算机视觉国际会议论文集》中,第10012-10022页,2021年。
[61] 王文海,谢恩泽,李翔,范登平,宋凯涛,梁鼎亮,卢彤,罗萍和邵岭。基于金字塔视觉变换器的改进基准模型。《计算视觉媒体》,第8卷第3期,第415-424页,2022年。
[62] 丁明宇,肖斌,诺埃尔·科德拉,罗萍,王井东和袁路。双注意力机制视觉变换器。在《欧洲计算机视觉会议论文集》中,第74-92页,2022年。
[63] 张鹏川,戴希扬,杨建伟,肖斌,袁路,张磊和高建峰。用于高分辨率图像编码的新型视觉变换器。在《计算机视觉国际会议论文集》中,第2998-3008页,2021年。
[64] 林宗义,普里亚·戈亚尔,罗斯·吉尔希克,何开明和彼得·多罗尔。密集目标检测的焦点损失函数。在《IEEE国际计算机视觉会议论文集》中,第2980-2988页,2017年。
[65] 艾拉德·霍弗,塔尔·本努恩,伊泰·胡巴拉,尼夫·吉拉迪,托尔斯滕·霍夫勒和丹尼尔·索德里。通过实例重复增强批次以提升泛化能力。在《计算机视觉和模式识别会议论文集》中,第8129-8138页,2020年。
[66] 伊利亚·洛什奇洛夫和弗兰克·赫特。解耦权重衰减正则化方法。arXiv预印本arXiv:1711.05101,2017年。
[67] 何凯明,乔治亚·吉奥克斯,彼得·多罗尔和罗斯·吉尔希克。Mask R-CNN模型。在《IEEE国际计算机视觉会议论文集》中,第2961-2969页,2017年。
[68] 李阳浩,韩子茂,罗斯·吉尔希克和何开明。探索简单视觉变换器作为目标检测的骨干模型。在《欧洲计算机视觉会议论文集》中,第280-296页,2022年。
[69] 亚历山大·基里洛夫,罗斯·吉尔希克,何开明和彼得·多罗尔。全景特征金字塔网络模型。在《计算机视觉和模式识别会议论文集》中,第6399-6408页,2019年。
[70] 肖特,刘英成,周博雷,姜云宁和孙建。统一感知解析用于场景理解任务。在《欧洲计算机视觉会议论文集》中,第418-434页,2018年。
(以上内容均由Ai生成)