如果 AI 像我们一样理解图像会怎样？这个模型可能会

快速阅读: 《黑客 Noon》消息，本文提出了一种名为Hi-Mapper的新方法，通过定义概率性层次树并在双曲空间中学习层次结构，以有效识别和分解视觉场景的层次结构。Hi-Mapper在图像分类、对象检测、实例分割和语义分割等任务中表现出色，提升了现有深度神经网络的性能。

作者：权亨俊，延世大学；张晋贤，延世大学；金珍，延世大学；金奎英，延世大学；申光勋，延世大学和韩国科学技术研究院（KIST）。

**摘要**

本文提出了一种新的视觉层次映射器（Hi-Mapper），该映射器调查了视觉场景的层次组织。我们通过新定义概率性层次树，并在双曲空间中学习层次结构来实现这一目标。我们将层次解释融入对比损失，并以数据高效的方式有效地识别视觉层次。通过有效的层次分解和编码过程，所识别的层次成功应用到全局视觉表示中，增强了对整个场景的结构化理解。当与现有深度神经网络集成时，Hi-Mapper 持续提升了这些网络的性能，并且还在多种密集预测任务中展示了其有效性。

**1. 引言**

在计算机视觉领域，理解视觉场景的层次组织是一个重要课题。本文提出了一种新的方法，即视觉层次映射器（Hi-Mapper），以更好地捕捉和表示视觉场景的层次结构。

**2. 相关工作**

近年来，许多研究致力于理解视觉场景的层次结构。例如，Nickel 和 Kiela 提出了 Poincaré 嵌入方法用于学习层次结构表示，而 Gao 等人探讨了在弯曲空间中为少样本学习生成曲率。

**3. 双曲几何**

双曲几何是一种非欧几何，其特点是具有负曲率。本文采用双曲几何框架，以便更好地理解和表示视觉场景的层次结构。

**4. 方法**

**4.1. 概述**

本文提出的 Hi-Mapper 方法包括几个关键步骤，包括概率性层次树的定义、在双曲空间中学习层次结构以及将层次结构融入对比损失。

**4.2. 概率性层次树**

我们定义了一种新的概率性层次树，用于表示视觉场景的多层次结构。这种树结构可以更灵活地表达层次关系。

**4.3. 视觉层次分解**

为了有效分解视觉场景，我们采用了视觉层次分解技术，将复杂场景分解成多个层次结构。

**4.4. 在双曲空间中学习层次结构**

我们在双曲空间中学习层次结构，以更好地捕捉视觉场景的内在层次关系。

**4.5. 视觉层次编码**

通过有效的层次编码过程，我们能够将识别出的层次结构应用于全局视觉表示，从而增强对整个场景的理解。

**5. 实验和结果**

**5.1. 图像分类**

实验结果显示，Hi-Mapper 在图像分类任务中取得了显著效果。

**5.2. 对象检测和实例分割**

在对象检测和实例分割任务中，Hi-Mapper 也表现出色。

**5.3. 语义分割**

在语义分割任务中，Hi-Mapper 同样取得了良好的性能。

**5.4. 可视化**

通过可视化技术，我们可以直观地展示 Hi-Mapper 的识别结果。

**6. 剥离研究和讨论**

通过对 Hi-Mapper 方法的深入分析，我们发现其在不同任务中的表现优异。

**7. 结论**

本文提出的 Hi-Mapper 方法在多种密集预测任务中展示了其有效性。未来的研究将进一步探索 Hi-Mapper 的潜力。

**参考文献**

[23] 马克西米利安·尼克尔和杜威·基拉。Poincaré 嵌入用于学习层次结构表示。神经信息处理系统进展，30，2017年。

[24] 马克西米利安·尼克尔和杜威·基拉。在洛伦兹双曲几何模型中学习连续层次。国际机器学习会议论文集，第3779-3788页。PMLR，2018年。

[25] 高振涛、吴雨薇、贾元德和哈拉迪。在弯曲空间中为少样本学习生成曲率。国际计算机视觉会议论文集，第8691-8700页，2021年。

[26] 亚历山大·蒂夫鲁、加里·贝辛格尔和奥克塔维安-尤根·盖纳。Poincaré 手套：超球面词嵌入。arXiv 预印本 arXiv:1810.06546，2018年。

[27] 朱永东、周迪、肖静慧、姜欣、陈晓和刘群。Hypertext：将 FastText 赋予超球面几何。arXiv 预印本 arXiv:2010.16143，2020年。

[28] 伊内斯·查米、英萨特·尹、克里斯托弗·里和尤雷·莱斯科维奇。超球面图卷积神经网络。神经信息处理系统进展，32，2019年。

[29] 卡兰·德萨伊、马克西米利安·尼克尔、塔姆奈·拉杰普罗希特、贾斯汀·约翰逊和沙姆库哈·拉马库里什纳·维达南塔姆。超球面图像文本表示。国际机器学习会议论文集，第7694-7731页。PMLR，2023年。

[30] 卢克·维尔尼斯和安德鲁·麦卡勒姆。通过高斯嵌入的词表示方法。国际学习表征会议论文集，2015年。

[31] 本·阿提瓦拉特坎和安德鲁·戈登·威尔逊。多模态词分布。arXiv 预印本 arXiv:1704.08424，2017年。

[32] 本·阿提瓦拉特坎和安德鲁·戈登·威尔逊。分层密度排序嵌入。国际学习表征会议论文集，2018年。

[33] 杨耿聪、张晶一、张勇、吴宝元和杨玉军。场景图生成的概率语义模糊建模。国际计算机视觉与模式识别会议论文集，第12527-12536页，2021年。

[34] 何凯明、张祥宇、任少青和孙剑。深度残差学习用于图像识别。国际计算机视觉与模式识别会议论文集，第770-778页，2016年。

[35] 托夫鲁·图弗鲁恩、马蒂厄·科尔德、马蒂亚斯·杜泽、弗朗西斯科·马萨、亚历山大·萨布莱罗尔斯和赫维·耶戈。通过注意力训练数据高效图像变换器和蒸馏。国际机器学习会议论文集，第10347-10357页。PMLR，2021年。

[36] 戴佳、董威、理查德·索彻、李莉佳、李凯和李菲菲。ImageNet：大规模分层图像数据库。2009年IEEE计算机视觉与模式识别会议论文集，第248-255页。IEEE，2009年。

[37] 林天易、迈克尔·马埃雷、瑟热·贝隆、詹姆斯·黑斯、皮耶罗·佩罗纳、德瓦·拉马纳南、皮奥特·多尔和C·劳伦斯·齐廷克。Microsoft COCO：上下文中的常见物体。计算机视觉–ECCV 2014：第13届欧洲会议论文集，第V 13部分，第740-755页。Springer，2014年。

[38] 周博雷、赵航、普伊·普伊格、桑贾·菲德尔、阿黛拉·巴里乌索和安东尼奥·托尔拉巴。通过ADE20K 数据集进行场景解析。国际计算机视觉与模式识别会议论文集，第633-641页，2017年。

[39] 波莱亚·费尔岑斯瓦尔布、罗斯·B·吉尔希克、大卫·麦克阿利斯特和德瓦·拉马纳南。基于判别性训练的部分模型目标检测。IEEE模式分析与机器智能汇刊，32（9）：1627-1645，2009年。

[40] 韩凤官和朱松春。基于属性语法的自下而上/自上而下图像解析。IEEE模式分析与机器智能汇刊，31（1）：59-73，2008年。

[41] 埃里克·B·苏德思、安东尼奥·托尔拉巴、威廉·T·弗里曼和艾伦·S·威尔斯基。学习场景、对象和部分的分层模型。第十届IEEE国际计算机视觉大会（ICCV’05）论文集，第1卷，第2卷，第1331-1338页。IEEE，2005年。

[42] 屠卓文、陈向荣、艾伦·L·尤利尔和朱松春。图像解析：统一分割、检测和识别。国际计算机视觉杂志，63：113-140，2005年。

[43] 吴天福和朱松春。关于或图中自下而上和自上而下推理过程的数值研究。国际计算机视觉杂志，93：226-252，2011年。

[44] 王文官、张志杰、祁思远、沈建兵、潘艳伟和邵岭。人类解析的构成性神经信息融合学习。国际计算机视觉会议论文集，第5703-5713页，2019年。

[45] 王文官、朱海龙、戴继丰、潘艳伟、沈建兵和邵岭。具有类型化部分关系推理的分层人体解析方法。国际计算机视觉与模式识别会议论文集，第8929-8939页，2020年。

[46] 沙罗·布朗、帕特里克·埃塞和比约恩·奥默。无监督解缠发现无监督部分。模式识别：第42届德国DAGM GCPR会议论文集，第345-359页。Springer，2021年。

[47] 苏巴哈塔·乔杜里、伊罗·拉伊娜、克里斯蒂安·鲁普雷希特和安德烈·维达尔迪。从对比重建中无监督地发现部分。神经信息处理系统进展，34：28104-28118，2021年。

[48] 胡维昌、瓦伦特·贾姆帕尼、李思飞、帕夫洛·莫尔查诺夫、杨明焕和詹·卡特。Scops：自监督共部段分割。国际计算机视觉与模式识别会议论文集，第869-878页，2019年。

[49] 库伊·柯、莫桑伍和吴星宇。学习分层图像分割以进行识别和通过识别。第十二届国际学习表征会议论文集，2024年。

[50] 陈善均、吴松俊、德·雷费扎伊·德·雷赞德、雅尼斯·卡拉兰迪斯和戴安·拉卢斯。跨模态检索的概率嵌入方法。国际计算机视觉与模式识别会议论文集，第8415-8424页，2021年。

[51] 施一冲和安尼尔·K·贾因。概率人脸嵌入。国际计算机视觉会议论文集，第6902-6911页，2019年。

[52] 公园真真、李智勇、金智一和孙光勋。视频对比学习的概率表示。国际计算机视觉与模式识别会议论文集，第14711-14721页，2022年。

[53] 马克西米利安·尼克尔和杜威·基拉。Poincaré 嵌入用于学习层次结构表示。神经信息处理系统进展，30，2017年。

[54] 米娜·加迪米·阿提格，尤利安·斯科普，埃尔曼·阿卡尔，纳内·范诺德和帕斯卡·梅特斯。双曲几何图像分割。在《计算机视觉和模式识别会议论文集》中，第4453-4462页，2022年。

[55] 魏真真，梅赫梅特·吉雷·奥古特，沙伊·利蒙奇克和塞尔·叶·昂。利用层次自监督方法发现实例分割中的长尾现象。在《计算机视觉和模式识别会议论文集》中，第2603-2612页，2021年。

[56] 瓦连丁·赫鲁尔科夫，莱拉·米尔瓦赫巴霍娃，叶夫根尼娅·乌斯蒂诺娃，伊万·奥斯莱德茨和维克托·伦皮茨基。双曲几何图像嵌入。在《计算机视觉和模式识别会议论文集》中，第6418-6428页，2020年。

[57] 德克·P·金玛，蒂姆·萨利曼斯和马克·韦林。基于变分dropout与局部重参数化技巧。在《神经信息处理系统会议论文集》中，第28卷，2015年。

[58] 阿龙·范登奥德，亚泽·李和奥里奥尔·文纳尔斯。基于对比预测编码的表征学习。arXiv预印本arXiv:1807.03748，2018年。

[59] 明星·谭和屈克·勒。重新审视卷积神经网络的模型缩放策略。在《机器学习国际会议论文集》中，第6105-6114页，2019年。

[60] 雷泽·刘，余通，岳超，韩欢，余旭轩，郑征，史蒂芬·林和鲍宁·郭。Swin变换器模型：使用移位窗口的分层视觉变换器。在《计算机视觉国际会议论文集》中，第10012-10022页，2021年。

[61] 王文海，谢恩泽，李翔，范登平，宋凯涛，梁鼎亮，卢彤，罗萍和邵岭。基于金字塔视觉变换器的改进基准模型。《计算视觉媒体》，第8卷第3期，第415-424页，2022年。

[62] 丁明宇，肖斌，诺埃尔·科德拉，罗萍，王井东和袁路。双注意力机制视觉变换器。在《欧洲计算机视觉会议论文集》中，第74-92页，2022年。

[63] 张鹏川，戴希扬，杨建伟，肖斌，袁路，张磊和高建峰。用于高分辨率图像编码的新型视觉变换器。在《计算机视觉国际会议论文集》中，第2998-3008页，2021年。

[64] 林宗义，普里亚·戈亚尔，罗斯·吉尔希克，何开明和彼得·多罗尔。密集目标检测的焦点损失函数。在《IEEE国际计算机视觉会议论文集》中，第2980-2988页，2017年。

[65] 艾拉德·霍弗，塔尔·本努恩，伊泰·胡巴拉，尼夫·吉拉迪，托尔斯滕·霍夫勒和丹尼尔·索德里。通过实例重复增强批次以提升泛化能力。在《计算机视觉和模式识别会议论文集》中，第8129-8138页，2020年。

[66] 伊利亚·洛什奇洛夫和弗兰克·赫特。解耦权重衰减正则化方法。arXiv预印本arXiv:1711.05101，2017年。

[67] 何凯明，乔治亚·吉奥克斯，彼得·多罗尔和罗斯·吉尔希克。Mask R-CNN模型。在《IEEE国际计算机视觉会议论文集》中，第2961-2969页，2017年。

[68] 李阳浩，韩子茂，罗斯·吉尔希克和何开明。探索简单视觉变换器作为目标检测的骨干模型。在《欧洲计算机视觉会议论文集》中，第280-296页，2022年。

[69] 亚历山大·基里洛夫，罗斯·吉尔希克，何开明和彼得·多罗尔。全景特征金字塔网络模型。在《计算机视觉和模式识别会议论文集》中，第6399-6408页，2019年。

[70] 肖特，刘英成，周博雷，姜云宁和孙建。统一感知解析用于场景理解任务。在《欧洲计算机视觉会议论文集》中，第418-434页，2018年。

(以上内容均由Ai生成)

如果 AI 像我们一样理解图像会怎样？这个模型可能会

你可能还想读

本周科技大事件：谷歌发布Pixel 10，Gamescom揭晓重磅游戏

SK海力士凭借HBM激增首次超越三星，领跑全球内存市场

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

“这改变了一切”：谷歌的人工智能模式迫使品牌重新考虑搜索策略

在 Android 上用更智能的应用程序替换 Google Assistant

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争：报告

Meta 超出预期，为“个人超级智能”做准备