AI “看到”什么以及为什么它很重要
快速阅读: 《黑客 Noon》消息,为了验证方法的有效性,我们进行了消融研究。结果显示,在图像分类任务中,双曲流形比欧几里得空间更能保持层次结构稳定性。概率层次树在性能上也优于确定性层次树。此外,当层次树的宽度为32且深度为4时,模型在ImageNet-1K数据集上达到最佳性能,准确率为82.6%。本文遵循CC BY 4.0许可协议。
作者:(1)权亨俊,延世大学;(2)张真贤,延世大学;(3)金镇,延世大学;(4)金奎英,延世大学;(5)孙光勋,延世大学和韩国科学技术研究院(韩科院)。链接列表摘要与引言2. 相关工作3. 双曲几何4. 方法4.1. 概述4. 方法4.2. 概率层次树4.3. 视觉层次分解4.4. 在双曲空间中学习层次结构4.5. 视觉层次编码5. 实验与5.1 图像分类5.2. 目标检测与实例分割5.3. 语义分割5.4. 可视化6. 消融研究与讨论7. 结论与参考文献6. 消融研究与讨论
为了进一步分析和验证我们方法的组成部分,我们在图像分类上进行了消融研究。双曲流形的效果如何。我们首先探讨了双曲流形在我们方法中的效果。如表4所示,我们展示了在图像分类任务中的影响。在欧几里得空间中,两个向量之间的距离函数是余弦相似度函数。结果显示,在欧几里得空间中应用分层对比损失会降低性能。这表明双曲空间更适合于保持层次结构的稳定性。此外,应用KL损失项还带来了来自语义种子分布的额外益处。
概率建模的影响。在表5中,我们报告了概率层次树与确定性层次树之间的性能比较。为了构建层次树,概率建模通过其子节点分布的混合高斯模型定义每个节点,而确定性方法则通过其子节点的平均值来确定每个节点。概率层次树在性能上明显优于确定性方法。这一结果表明,概率建模比确定性建模更有效地表示层次结构,从而提升了识别性能。
层次宽度与深度。如图5所示,我们分析了层次树的宽度N和深度L对ImageNet-1K [36]在Hi-Mapper(DeiT-S)上的影响。这些因素控制了要分解的视觉元素的粒度。虽然较小的N会削弱细粒度识别能力,过多的N则会妨碍优化过程。同时,较大的L虽能提供多样化的粒度,但可能导致对象级别的表示混乱。在所有情况下,当N=32且L=4时,我们报告了最佳性能,即82.6%。
本文可在arXiv上以CC BY 4.0许可协议发布。
(以上内容均由Ai生成)