折叠尺可以告诉我们关于神经网络的什么

发布时间:2025年7月10日    来源:szf
折叠尺可以告诉我们关于神经网络的什么

快速阅读: 《巴塞尔大学》消息,巴塞尔大学团队开发了一个简单模型,模拟深度神经网络的层级分工,通过弹簧-块理论理解数据分离机制,有助于优化AI训练。

深度神经网络是人工智能的核心,广泛应用于从模式识别到大型语言模型和推理模型如ChatGPT等任务。其原理是:在训练阶段,通过调整网络中人工神经元的参数,使其能够执行特定任务,例如自主地在图像中识别物体或特征。这种机制是如何运作的,以及为什么某些神经网络比其他神经网络更强大,仍然难以理解。目前的技术尚无法对这一过程进行严格的数学描述。然而,如果想要在资源有限的情况下构建人工智能,这种理解至关重要。

由巴塞尔大学数学与计算机科学系的伊万·多克曼尼奇教授带领的研究团队,近日开发出一个令人惊讶的简单模型,该模型可以再现深度神经网络的主要特征,并便于优化其参数。他们最近在科学期刊《物理评论快报》上发表了研究成果。

神经网络中的层级分工

深度神经网络由多个神经元层组成。当学习对图像中的对象进行分类时,网络会逐层逐步完成分类。在这个逐渐接近的过程中,两个类别——例如“猫”和“狗”——逐渐被清晰地区分,这被称为数据分离。“通常,在性能良好的网络中,每一层对数据分离的贡献大致相同,但有时主要由较深或较浅的层完成”,多克曼尼奇说道。

神经网络中的层级分工

这取决于网络的构造方式:神经元是否仅对输入数据进行线性运算(即专家所说的“线性”)?还是它们进行更复杂的计算——换句话说,网络是否为“非线性”?另一个考虑因素是:在大多数情况下,神经网络的训练阶段也包含随机性或噪声。例如,在每次训练中,随机选择的一组神经元会被忽略,无论其输入内容如何。令人意外的是,这种噪声反而能提升网络性能。

神经网络中的层级分工

“非线性与噪声的相互作用产生了极为复杂的行为,这很难理解和预测”,多克曼尼奇说。“另一方面,我们知道各层间数据分离的均衡分布有助于提升网络性能”。因此,为了取得一些进展,多克曼尼奇和他的合作者从物理理论中获得启发,开发出了一种可直观理解的学习过程宏观机械模型。

拉伸和摇动折叠尺

其中一个模型是一个折叠尺,其各个部分对应于神经网络的各层,并且在一端被拉开。在这种情况下,非线性来源于各部分之间的机械摩擦。可通过在拉伸过程中不规则地摇动折叠尺的一端来引入噪声。

这个简单实验的结果是:如果缓慢而稳定地拉伸尺子,前几段会展开,而其他部分则基本保持闭合。“这相当于数据分离主要发生在浅层的神经网络”,多克曼尼奇小组的博士生施成解释道,他是这项研究的第一作者。相反,如果快速拉伸并轻微摇动,折叠尺便会均匀展开。在网络中,这将是均匀的数据分离。

“我们已经模拟并数学分析了类似由弹簧连接的块模型,结果与‘真实’网络的结果几乎惊人地吻合”,施成说。巴塞尔的研究人员计划很快将他们的方法应用于大型语言模型。一般来说,这样的机械模型未来可用于改进高性能深度神经网络的训练,而无需依赖传统的试错法来确定噪声和非线性等参数的最佳值。

原始出版物
施成、潘立明、伊万·多克曼尼奇
深度神经网络中特征学习的弹簧-块理论
《物理评论快报》(2025),DOI: 10.1103/ys4n-2tj3

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日