神经网络|UC伯克利发现「没有免费午餐定理」加强版:每个神经网络,都是一个高维向量( 二 )
最后,作者将本文提出的理论与宽度有限(宽度仅为 20)的网络进行对比,发现本文提出的理论在这些宽度较小的网络中也成立,这表明它不仅适用于标准的 NTK,事实上也能正确预测真实神经网络的泛化性能。
文章插图
论文地址:https://arxiv.org/pdf/2110.03922.pdf
该理论不仅可以解释为什么神经网络在某些函数上可以很好地泛化,而且还可以预测出给定的网络架构适合哪些函数,让我们可以从第一性原理出发为给定的问题挑选最合适的架构。
为此,本文作者进行了一系列近似,他们首先将真实的网络近似为理想化的宽度无限的网络,这与核回归是等价的。接着,作者针对核回归的泛化推导出了新的近似结果。这些近似的方程能够准确预测出原始网络的泛化性能。
本文的研究建立在无限宽网络理论的基础之上。该理论表明,随着网络宽度趋于无穷大,根据类似于中心极限定理的结果,常用的神经网络会有非常简单的解析形式。特别是,采用均方误差(MSE)损失的梯度下降训练的足够宽的网络等价于 NTK 核回归模型。利用这一结论,研究者们研究者们通过对核回归的泛化性能分析将相同的结论推广至了有限宽的网络。
Bordelon 等人于 2020 年发表的 ICML 论文「Spectrum dependent learning curves in kernel regression and wide neural networks」指出,当使用 NTK 作为核时,其表达式可以精准地预测学习任意函数的神经网络的 MSE。我们可以认为,当样本被添加到训练集中时,网络会在越来越大的输入空间中泛化得很好。这个可学习函数的子空间的自然基即为 NTK 的特征基,我们根据其特征值的降序来学习特征函数。
具体而言,本文作者首先形式化定义了目标函数的可学习性,该指标具备 MSE 所不具备的一些理想特性。接着,作者使用可学习性来证明了一个加强版的「没有免费午餐定理」,该定理描述了核对正交基下所有函数的归纳偏置的折中。该定理表明,较高的 NTK 本征模更容易学习,且这些本征模之间在给定的训练集大小下的学习能力存在零和竞争。作者进一步证明,对于任何的核或较宽的网络,这一折中必然会使某些函数的泛化性能差于预期。
文章插图
文章插图
- 5G|华为利用5G毫米波发现园区入侵者,这让美国5G联盟情何以堪
- 发现最小白矮星,其大小相当于月亮,这让科学家很兴奋
- 玉兔二号发现的“神秘小屋”前不久|玉兔二号拍到的月球背面的房子到底是什么,终于揭晓了
- Google|在德国留学发现,华为手机在欧洲市场相当于一块砖头
- 一斗穷、二斗富?康熙10个“簸箕”,科学家发现斗与簸箕的奥秘
- 微信|发现微信好友朋友圈是“一条杠”,删还不不删?
- 青年报·青春上海记者 陈嘉音/文 郭容/图、视频手办和雕像作为收藏品|青年发现|为中国人塑像,国风潮流玩具的“破圈”故事
- 揭开神秘面纱?嫦娥四号获取新成果:在月球背面发现“天外来客”
- 审查|德国监管机构:未发现任何证据表明小米手机具有“审查”功能
- 83年前宣布灭绝的鱼被发现还活着1月9日|83年前宣布灭绝的鱼被发现还活着,看似普通的它,为何难以发现