AI “看到”什么以及为什么它很重要

发布时间：2025年3月1日来源：szf

快速阅读: 《黑客 Noon》消息，为了验证方法的有效性，我们进行了消融研究。结果显示，在图像分类任务中，双曲流形比欧几里得空间更能保持层次结构稳定性。概率层次树在性能上也优于确定性层次树。此外，当层次树的宽度为32且深度为4时，模型在ImageNet-1K数据集上达到最佳性能，准确率为82.6%。本文遵循CC BY 4.0许可协议。

作者：（1）权亨俊，延世大学；（2）张真贤，延世大学；（3）金镇，延世大学；（4）金奎英，延世大学；（5）孙光勋，延世大学和韩国科学技术研究院（韩科院）。链接列表摘要与引言2. 相关工作3. 双曲几何4. 方法4.1. 概述4. 方法4.2. 概率层次树4.3. 视觉层次分解4.4. 在双曲空间中学习层次结构4.5. 视觉层次编码5. 实验与5.1 图像分类5.2. 目标检测与实例分割5.3. 语义分割5.4. 可视化6. 消融研究与讨论7. 结论与参考文献6. 消融研究与讨论

为了进一步分析和验证我们方法的组成部分，我们在图像分类上进行了消融研究。双曲流形的效果如何。我们首先探讨了双曲流形在我们方法中的效果。如表4所示，我们展示了在图像分类任务中的影响。在欧几里得空间中，两个向量之间的距离函数是余弦相似度函数。结果显示，在欧几里得空间中应用分层对比损失会降低性能。这表明双曲空间更适合于保持层次结构的稳定性。此外，应用KL损失项还带来了来自语义种子分布的额外益处。

概率建模的影响。在表5中，我们报告了概率层次树与确定性层次树之间的性能比较。为了构建层次树，概率建模通过其子节点分布的混合高斯模型定义每个节点，而确定性方法则通过其子节点的平均值来确定每个节点。概率层次树在性能上明显优于确定性方法。这一结果表明，概率建模比确定性建模更有效地表示层次结构，从而提升了识别性能。

层次宽度与深度。如图5所示，我们分析了层次树的宽度N和深度L对ImageNet-1K [36]在Hi-Mapper(DeiT-S)上的影响。这些因素控制了要分解的视觉元素的粒度。虽然较小的N会削弱细粒度识别能力，过多的N则会妨碍优化过程。同时，较大的L虽能提供多样化的粒度，但可能导致对象级别的表示混乱。在所有情况下，当N=32且L=4时，我们报告了最佳性能，即82.6%。

本文可在arXiv上以CC BY 4.0许可协议发布。

(以上内容均由Ai生成)

关键词： Ai