“扭矩集群”如何增强 AI 独立学习的能力
快速阅读: 据《药物发现与开发》最新报道,扭矩聚类是一种新型算法,由悉尼科技大学研究人员于2023年提出,灵感源于宇宙中的旋转力。该算法能自主检测数据模式,无需人工标签,在多项测试中表现出色。尽管其逻辑较为复杂,缺乏透明度,但它在大规模无结构数据集中揭示隐藏结构方面具有潜力。该技术有望推动无监督学习向更高级的自主模式发现发展。
![图片] courtesy of Adobe Stock] 传统的AI训练就像喂食:领域专家和AI/ML从业者细致地标记数据,像父母喂孩子一样逐步引导模型。但如果AI能够自主学习,灵感来源于宇宙本身呢?这就引入了扭矩聚类,这是一种由悉尼科技大学的研究人员在2023年提出的新型算法。该算法以控制星系合并的旋转力为名,利用引力物理学检测原始数据中的模式。最近,这项技术被报道在1000个不同的数据集中,其平均调整互信息(AMI)得分为97.7%,能够检测到原始数据中的模式。同样令人印象深刻的是,它还消除了对人工标签的需求。2023年的论文报告称,该技术在76个不同的数据集上测试时,比许多先前的聚类方法提高了约9-15%的准确性(或NMI)。通过减少对人工标注数据的依赖,该算法使AI系统能够在大型、无结构的数据集中检测模式。这种方法在从生物学(如基因组分析和疾病研究)到金融(如欺诈检测和风险评估)等各个领域都有潜在应用。
扭矩聚类的一个值得注意的问题是其可解释性。与提供基于标记特征的明确理由的监督学习模型不同,扭矩聚类的逻辑源自复杂的引力动力学原理,可能不够透明。因此,解释某些数据点为何会归入同一集群可能会比较困难。然而,当权衡其自主发现能力时,这种权衡通常是可接受的,甚至是优势。通过牺牲一定程度的人类可解释的理由,该算法可以在传统方法可能失败或需要昂贵标注的大规模未标记数据集中揭示隐藏的结构。
引力原理
扭矩聚类受引力相互作用的启发,将数据点视为具有“质量”(基于局部密度)和“距离”(基于接近度)。较小的集群通常会与较大的集群合并,除非存在显著的间隙。据开发团队称,这种基于物理的方法可以:
该算法在没有预定义输入的情况下确定最佳的集群数量。使用全局密度阈值识别噪声或异常值。适应各种数据形状,包括非凸集群和高维空间。
算法概述
扭矩聚类采用四个阶段的过程,首先是根据局部密度分配质量。接下来是应用扭矩计算,根据质量-距离比率指导集群合并。第三阶段是自我修正,重新分配必要的点。最后是细化边界,去除噪声,同时保持各集群的清晰区分。
该技术具有重要的长期潜力。短期内,重点在于解决计算成本问题:虽然该算法目前有“中等”的计算需求,但为了处理大规模数据集,还需要进一步优化。为了促进广泛应用,开源计划可能是关键策略——这是近期一篇1950.ai文章中提到的关键策略之一。与其他AI一样,也有必要解决偏见并确保伦理监管。
展望未来,1950.ai文章指出,“许多专家认为扭矩聚类可能弥合当前AI模型与AGI(通用人工智能)之间的差距——一种能够在多个领域进行自我学习和决策的AI。”除此之外,扭矩聚类旨在拓展无监督学习的应用范围,而无监督学习历史上主要局限于简单的聚类或基本的降维。相比之下,这种方法朝着更高级的自主模式发现迈进。
(以上内容均由Ai生成)