您的位置：首页 > 其它

理解深度学习需要重新思考泛化

2017-06-02 16:12 330 查看

这篇文章来自ICLR2017 best paper，是一片十分有争议的文章，看完之后在小组会上跟大家分享了这篇文章，最终经过一系列讨论，结合种种实验得出结论，我们认为数据对于泛化性能来说是十分重要的，因为对于实验中的数据来说，我们可以发现在真实数据上的实验结果以及泛化结果相对于其他数据副本来说都是极具优势的。以下为个人观点：

我认为这篇文章只是提出了一个新的思考，给出了一个新的研究方向，至于是否有意思，目前无从得知，斯以为它能获得最佳论文的理由如下：

首先，作者团队足够强大，MIT博士，谷歌大脑团队，深度学习三大巨头之一的成员；

其次，由于最近深度学习的研究在很多方向上已经很难开展出十分醒目的研究，比如设计新的模型种种变得并没有那么容易，而这篇paper的出现给大家引了一条新路，开拓了一个新的研究方向。但是它只是给了大家一种新的思考，至于它的实际意义，个人认为目前仍不能确定；

最后，证明了以前的方法不好，这在一定程度上对前人的工作进行了一个前所未有的评价，不敢说否定，但确实有一定的冲击性。

因此，评委认为对这篇paper给予了很高的评价。

下面是我个人对这篇paper的一个翻译，有些地方可能翻译的而不够准确，仅供参考。

UNDERSTANDING DEEP LEARNING REQUIRESRETHINKING GENERALIZATION
摘要
尽管体积巨大，成功的深度人工神经网络在训练和测试性能之间可以展现出非常小的差异。过去一般将其归功于泛化误差小，无论是对模型谱系的特点还是对于训练中使用的正则技术来说。
通过广泛的系统的实验，我们展示了传统方法无法解释为什么大规模神经网络在实践中泛化表现好。具体来说，我们的实验证明了用随机梯度方法训练的、用于图像分类的最先进的卷积网络很容易拟合训练数据的随机标记。这种现象本质上不受显式正则化影响，即使我们通过完全非结构化随机噪声来替换真实图像，也会发生这种现象。我们用一个理论结构证实了这些实验结果，表明只要参数的数量超过实践中通常的数据点的数量，简单两层深的神经网络就已经具有完美的有限样本表达性（finite
sample expressivity）。我们通过与传统模型进行比较来解释我们的实验结果。
【一句话总结】通过深入系统的实验，我们指出传统方式无法解释为什么大规模神经网络在实践中泛化表现良好，同时指出我们为何需要重新思考泛化问题。
1介绍

深度人工神经网络通常具有远远多于训练样本数目的可训练模型参数。然而，这些模型中的一些显示出非常小的泛化误差（即“训练误差”与“测试误差”之间的差异比较小）。同时，很容易想出一些泛化很差的自然模型架构。那么，泛化好的神经网络与泛化不好的神经网络有什么区别？对这一问题做出满意的回答，不仅有助于更好地理解神经网络，还可能带来更正确可靠的模型架构设计。

为了回答这个问题，统计学习理论提出了一些能够控制泛化误差的不同复杂度测度。这些包括VC维，拉德马赫复杂度，和均匀稳定性等。而且，当参数的数量很大时，理论认为需要某种形式的正规化来确保小的泛化误差。正则化也可能是隐式的，如提前停止的情况。

2我们的贡献

在这个工作中，我们通过展示传统的泛化观点不能够解释为什么不同的神经网络具有截然不同的泛化性能。

随机测试 我们方法论的核心是众所周知的，即从非参数统计中随机化一个变体。在第一组实验中，我们在数据的副本上训练了一些标准的结构，在这个副本数据中，真正的标签被替换为随机的标签。我们的中心发现可以概括为：

深度神经网络很容易拟合随机标签
更确切地说，当我们在真正的数据集上完全随机化标记然后进行训练的时候，神经网络的训练误差为0。当然，测试错误并不是很好，因为没有训练标签和测试标签之间的相关性。

总结：在这种情况下，实例和分类标签之间不再有任何关系。因此，学习是不可能发生的。直觉告诉我们，这种不可能会在训练过程中很清楚地表现出来，比如训练不收敛，或者收敛速度大幅减慢。让我们感到意外的是，有多个标准架构的训练过程的好些属性，在很大程度上都没有受这种标签转换的影响。

换句话说，通过单独的随机化标签，我们可以强制让一个模型的泛化误差在不改变其模型，以及模型大小，超参数还有优化器的情况下大幅度增加。我们在CIFAR10和ImageNet上分别对不同的标准结构进行训练后得出了这一事实。但是这个简单的陈述，从统计学的角度来看，这一观察结果具有深远的意义:

1 神经网络的有效容量足以记住整个数据集；

2对标签随机的数据进行优化很容易。事实上，与标签正确的训练过程相比，随机标签的训练时间也只增加一个小的常数因子；

3将标签打乱仅仅是做了一个数据转换，其他所有关于学习问题的属性都没有改变。

综上可得：
“……通过将标签随机化，我们可以强制模型不受改变、保持同样大小、超参数或优化器的情况下，大幅提升网络的泛化误差。我们在 CIFAR 10
和 ImageNet 分类基准上训练了好几种不同标准架构，证实了这一点。”
换句话说：模型本身、模型大小、超参数和优化器都不能解释当前最好的神经网络的泛化性能。因为在其他条件都不变的情况下，唯独泛化误差产生大幅变动，只能得出这一个答案。
在第一组实验上进行扩展，我们通过完全随机化的图像像素去替代真实图像，观察发现卷积神经网络继续适用于0训练误差的数据。这表明，尽管他们是这种结构，卷积神经网络可以拟合随机噪声。此外，我们进一步改变随机化的数量，在无噪声和完全噪声的情况下平滑地插入数据集。这样一来，标签还是保有某种程度的信号，从而会造成一系列间接的学习问题。随着噪声水平的提高，我们观察到泛化误差呈现出稳定的恶化。这表明神经网络能够理解数据中的剩余信号，同时用暴力计算适应噪声部分。我们将在下面更详细地讨论这些观察结果排除了所有的VC维度，Rademacher复杂度和均匀的稳定性，作为对最先进神经网络的泛化性能的可能解释。
显式正则化的作用。 如果模型本身没有充分的正则化，它仍然可以看到显式正则化的帮助有多少。我们表明，显式正则化方法，如权重衰减、dropout
和数据增强，都不能充分解释神经网络的泛化误差。换个方式说：
显式正则化确实可以提高泛化性能，但其本身既没必要也不足以控制泛化误差。
与古典凸经验风险最小化相反，其中必须进行显示正则化来排除不重要（微不足道）的解决方案，我们发现正规化在深度学习上起着不同的作用。显式正则化更像是做调整参数，有助于改善泛化能力（即帮助提高最终的测试误差），但不使用显示正则化方法也不一定意味着会产生很差的泛化误差。正如（Krizhevsky et al. (2012)）这个篇文章中，L2正则化有时可以帮助优化，说明在深度学习中它很少被人理解的本性。
有限样本表征。 我们用理论结构补充了我们的经验观察结果，表明一般大型神经网络可以表征训练数据的任何标签。更加正式的，存在一个激活函数为 ReLU
的两层神经网络，权重为 2n + d，可以对维度为 d 样本大小为 n 的任何函数进行表征。先前由于Livni等人在具有更多参数的情况下取得了类似的结果，即O(dn).当我们的网络深度为2时，那么不可避免的网络将具有较大的宽度，因而我们也可以提出一个深度为K的网络，其中每层只有O(n/k)个参数。
虽然先前的表征结果集中在神经网络可以在整个领域中表示，但我们重点关注神经网络对有限样本的表达性。在函数空间中，与现有的深度分离相比，我们的结果表明，就连线性大小的 2
层深网络也可以表征训练数据的任何标签！
隐式正则化的作用。当显式正则化像dropout，权重衰减等可能不是泛化的必要条件，当然不是所有很好的拟合训练数据的模型都能够很好的泛化。
事实上，在神经网络中，我们几乎总是选择我们的模型作为运行随机梯度下降的输出。我们分析了作为隐式正则化函数的随机梯度下降（SGD）的表现。对于线性模型，SGD 总是收敛到一个小的范数解。因此，算法本身将解决方案隐性地正则化了……的确，我们展示了在一个小的数据集上，在不进行正则化的情况下，即使高斯核方法也可以很好的泛化，尽管这并不能解释为什么某些架构比其他架构泛化得更好，但它确实表明，要准确理解使用
SGD 训练的模型继承了哪些属性，还需要更多的调查。
1.2相关工作
（Hardt et al. (2016)）这篇文章从梯度下降的步数来考虑，给出了用。随机梯度下降训练的模型的泛化误差的上限。他们的分析遵循均匀稳定性的概念。正如我们在这项工作中指出的，学习算法的均匀稳定性与训练数据的标签无关。因此，这个概念不足以区分在真实标签（小泛化误差）上训练的模型和在随机标签上训练的模型（高泛化误差）。这也突出了为什么对Hardt et al. (2016)等人对于非凸优化的分析相当悲观，在数据上只允许很少的传递。我们的研究结果表明，甚至经验训练神经网络对于数据的许多传递也不是均匀稳定的。因此，需要一个较弱的稳定性概念，以便在这方面取得进一步进展。
从多层感知机的普遍性近似理论出发，在神经网络的代表性力量上已经有了很多的工作。所有这些结果都在总体水平上，表征了某些神经网络系列在整个领域可以表达的数学函数。研究了神经网络在大小为n的有限样本中的表征性。这引出了一个非常简单的证明，即使O（n）大小的两层感知器也具有通用的有限样本表达性。
      在每个结点的权重的L1范数方便证明了具有sigmoid激活函数的额多层感知机的（fat shattering dimension）脂肪破碎维度边界。这个重要的结果给出了神经网络的泛化约束即它是独立于网络大小的，也就是与网络大小无关的。然而，对于RELU网络，“1范数”不再具有信息性。这导致了一个问题：对于大的神经网络，是否有不同形式的容量来控制它的泛化误差。这个问题在这个Neyshabur
et al. (2014)工作中被提出，通过实验论证，网络大小不是神经网络的能力控制的主要形式。类比矩阵分解法说明了隐式正则化的重要性。
2. 神经网络的有效能力
我们的目标是理解前馈神经网络的有效模型能力。对于这个目标，我们选择了非参数随机化测试的方法。特别地，我们采用候选架构，并对真实数据和真实标签替换为随机标签的数据的副本进行训练。对于后者，实例和类标签之间不再有任何关系。因此，学习是不可能的。直觉表明，这种不可能性在培训过程中应该表现得很清楚，通过训练不会大幅缩减或减缓。令人惊讶的是，多标准化结构的训练过程的几个属性在很大程度上不受标签变形的影响。这就提出了一个概念性的挑战。无论我们为期待一个小的泛化错误开始的理由不得不适用于随机标签的情况。（翻译的不好）。
为了进一步深入理解这一现象，我们尝试不同程度的随机化探索无标签噪声和完全损坏的标签之间的连续体。我们还尝试输入（而不是标签）的不同随机化，得出同样的一般性结论。
在两个图像分类数据集CIFAR10和ImageNet (Russakovsky et al., 2015)ILSVRC 2012 上分别做了实验。
图像分类数据集：CIFAR10数据集（Krizhevsky＆Hinton，2009）和ImageNet（Russakovsky等，2015）ILSVRC 2012数据集。
architecture：Inception V3(Szegedy et al., 2016) architecture on ImageNet. Alexnet (Krizhevsky et al.,2012), and MLPs on CIFAR10
关于实验设置的更多细节，请参阅附录A部分
2.1使用随机标签和像素

我们用以下的标签和输入图片来做实验:
§ 真实标签（原始数据集，没做修改）
§ 部分损坏的标签（将其中一部分标签打乱了）
§ 随机标签（把所有标签都打乱）
§ shuffle
像素（选择一个像素排列，然后将其统一［uniformly］用于所有图像）
§ 随机像素（对每幅图像单独做一个不同的随机排列）
§ 高斯方法（如上文所述，给每幅图像增加随机生成的像素）
令人惊讶的是，尽管随机标签完全破坏了图像和标签之间的关系，随机梯度下降具有不变的超参数设置可以优化权重以适合随机标签。我们通过混洗图像像素进一步破坏图像的结构，甚至从高斯分布中完全重新采样随机像素。但是我们测试的网络仍然能够适应。

图1：在CIFAR10上拟合随机标签和随机像素。a）显示各种实验设置下的训练损失随着训练步骤的增加而减少（b）显示了不同标签损坏率的相对收敛时间，随着标签噪声水平的增加，收敛时间的减慢。（c）显示不同标签损坏下的测试错误（也是训练误差为0的泛化误差）。

图像1a显示了各种设置下CIFAR10数据集上的Inception模型的学习曲线。我们期望目标函数在随机标签上需要更长的时间来开始下降，因为最初每个训练样本的标签分配是不相关的。因而，大的预测误差被反向传播，为参数更新制造更大的梯度。然而，因为随机标签是固定的和一致的，所以通过多次训练之后网络就开始拟合了。我们发现以下对于拟合随机标签的观察非常有趣：a)我们不需要改变学习率计划；b)一旦拟合开始，它将会快速收敛；c）它将会完美的拟合训练集。还要注意，“随机像素”和“高斯”开始收敛会比“随机标签”更快。这可能是因为对于随机像素，与原来属于同一类别的自然图像相比，它的输入彼此之间是更加分散的，因此更容易构建用于任意标签分配的网络。
Table1 CIFAR10数据集上不同模型的训练精度与测试精度（百分比）。比较运用或者不运用数据增加或权重衰减下的性能。还包括拟合随机标签的结果。

在CIFAR10数据集上，Alexnet和MLP在训练集上都收敛到0损失，即训练误差为0。表1中的阴影行显示精确的数字和实验设置。我们在ImageNet数据集上也进行了随机标签测试。如附录中表2的最后三行所示，虽然没有达到完美的100％top-1精度，对于来自1000个类别的100万个随机标签有95.20％的精度仍然是非常惊人的。注意，当从真实标签转换到随机标签时，我们没有进行任何超参数调整。有可能通过对超参数进行调整后在随机标签上可以达到完美的精确度。即使进行显式正则化，网络所能达到的最高精确度大约为90%。（翻译不太好）

Partially corrupted labels 我们在CIFAR10数据集上，从0（无腐败）到1（完全随机标签）的不同级别的标签损坏上进一步检查神经网络的训练行为。在所有情况下，网络都可以完美的拟合有损训练集图1b展示收敛时间随着标签噪声水平的增加而放缓。图1C描述的是收敛之后的测试误差。由于训练误差始终为零，因此测试误差与泛化误差相同。随着噪声水平接近1，泛化误差收敛于90％ ——在CIFAR10上随机猜测的性能。

2.2 IMPLICATIONS
根据我们的随机化实验，我们将讨论我们关于泛化原因的发现是如何对传统方法提出挑战的。
Rademacher（拉德马赫）complexity and VC-dimension.拉德马赫复杂度是常用的、灵活的一个假设类的复杂度测量。在数据集{x1,….xn}上一个假设类的经验拉德马赫复杂度被定义为：

这里是独立同分布的均匀随机变量。这里的定义类似于我们的随机测试。特别地，中H的测量能力适合二分类任务。当我们考虑多分类问题时，对于同样的观测结果它会直接考虑相关的二分类问题。因为我们的随机化测试表明许多神经网络可以完美地拟合随机标签训练集，我们期望对应的模型类，。这当然是Rademacher（拉德马赫）复杂性的一个微不足道的上限，在实际设置中不会导致有用的泛化界限。除了我们进一步限制网络之外，类似的推理也适用于VC维度及其连续的fat-shattering维度。虽然Bartlett
(1998)巴特利特（1998）证明了对网络权重的“1范数界限”的限制，这个限制不适用于我们这儿考虑的ReLU网络。这个结果被Neyshaburet等人推广到其他范数上（2015），但即使这样似乎也无法解释我们观察到的泛化行为。
Uniform stability 抛开假设类的复杂性度量，我们可以考虑用于训练的算法的性能。这通常用一些稳定性的概念来完成，例如均匀稳定性（Bousquet＆Elisseeff，2002）。算法A的均匀稳定性测量算法对替换单个示例的敏感度。然而，它只是算法的属性，不考虑数据的细节或标签的分布。有可能定义较弱的稳定性概念。最弱的稳定性度量直接等于边界泛化误差，并且将数据考虑进去。然而，很难有效地利用这种较弱的稳定性概念。
3 正则化的作用
我们的大多数随机化测试都是在避开显式正规化的情况下执行的。当数据参数多于数据点时，正则化是理论和实践中缓解过度拟合的标准工具（Vapnik，1998）。基本思想是，虽然原始假设太大而不能很好地泛化，但是正则化有助于将学习限于具有可控复杂度的假设空间的一个子集内。通过添加显式正则化器，通过惩罚最优解的规范来说，可能的解决方案的有效的Rademacher复杂度被显著降低。
正如我们所看到的，在深度学习中，显式正则化扮演者一个相当不同的角色。正如在附录中表2的底行，与用dropout和权值衰减一样，即使不能很完美，InceptionV3也能够很好的拟合随机训练集。尽管没有显式正则化，在CIFAR10, Inception和 MLPs上通过权值衰减仍然可以完美的拟合随机训练集。然而，AlexNet利用权值衰减在随机标签上无法收敛。为了调查正则化在深度学习中的作用，我们明确比较了深层网络学习与非正则化学习的行为。
我们简单地采取几种常用的网络架构，而不是对深度学习的各种正则化技术进行全面的调查，并比较了不使用正则化器的行为。以下三种正则化：
·        数据增强：涉及特定域的转化。对于图像数据，常用的变换包括随机裁剪，亮度随机扰动，饱和度，色调和对比度。
·        权重衰减：非常流行的正则化方法，等价于在权重上进行L2正则化。
·        Dropout：（因 LeCun
而发扬光大）以给定的dropout概率随机屏蔽各层的每个元素的输出。在我们的实验中，我们对于ImageNet数据集仅在InceptionV3上使用了dropout.
表1展示了再CIFAR10上Inception,
Alexnet and MLPs的结果，切换了数据增强和权值衰减的应用。正则化技术帮助我们提高了泛化性能，但是即使我们不用正则化，我们的所有模型依然可以泛化的很好。
在附录表2中展示了在ImageNet数据集上相似的实验结果。当我们关闭所有正规器时，观察到top-1
test 精度下降了18%。更精确地说，无正则化时，top-1test精度为59.8%，然而在ImageNet，随机猜测时top-1
test只能达到0.1%的精度。更显著的是，随着数据增强，同时不用其他正则化时，Inception的精度能够达到72.95%。事实上，似乎使用已知的对称性来增加数据的能力比仅仅调整权值衰减或防止低训练误差显得更强大。
不使用正则化时，Inception能达到80.38%top-5精度，而报告的ILSVRC
2012（Krizhevsky等，2012）获胜者达到83.6％。所以正规化是重要的，通过简单地改变模型架构可以获得更大的收益。很难说，正则化是深层网络泛化能力的根本阶段性变化。
3.1 隐式正则化
在一些凸学习问题上提前停止被展示为隐式正则化，在附录表2中，括号中显示的是在训练过程中的最好的测试精度。它证实，提前停止可能潜在地提高泛化性能。图2a展示了在ImageNet上的训练精度和测试精度。阴影区域表示累积的最佳测试精度，作为提前停止的潜在性能增益的参考。然而，在CIFAR10数据集上，我们不能观察到提前停止的任何潜在好处。

批量归一化（Ioffe＆Szegedy，2015）是在每个mini-batch内归一化层响应的运算符。在许多现代的神经网络中，它已经被广泛的采用，如Inception（Szegedy
et al。，2016）和Residual Networks（He et al。，2016）。虽然没有明确设计用于正则化，但通常会发现batchnormalization可以提高泛化性能。Inception架构使用许多batchnormalization层。为了测试batch
normalization的影响，我们创建了一个“Inceptionw / o BatchNorm”架构，除了所有batchnormalization被移除外，与图3中的Inception完全相同。图2b比较了CIFAR10上Inception的两个变体的学习曲线，这里避开了所有的显式正则化（即没有使用任何显式正则化）。规范化操作符有助于稳定学习动态，但对泛化性能的影响仅为3~4%。在这一节的表1中列出了“Inceptionw/o
BatchNorm”的精度。
总而言之，我们对显式和隐式正则化的观察一致地表明，正确的（regularizers）调整器有助于提高泛化性能。然而，正则化不太可能是泛化的根本原因，因为网络在所有正则化器被移除后依然表现的很好。
4 有限的样本表达
神经网络的表达能力已经做了大量的努力。几乎所有的结果都是在“总体水平”上显示了整个域的功能可以或者不可以用具有同样数量参数的确定类来表示。例如，总所周知，在总体水平上，第K层比第k-1层具有更强大的功能。
我们认为在实际中更重要的神经网络在大小为n的有限样本上的表达。利用均匀一致性理论有可能将总体水平的结果转换到有限样本上。然而，这样的均匀收敛边界将要求样本大小在网络深度的输入和指数维度上是多项式级别的，在实践中构成明显不切实际的要求，也就是说在实际中是不可实现的。
我们直接分析神经网络的有限样本表达性，并指出这显著简化了图像。具体来说，一旦网络的参数p的数量大于n，即使简单的两层神经网络也可以表示输入样本的任何功能。如果对于每个样本，每个函数，我们说神经网络C可以表示在维度为d，大小为n的样本的任何功能，这儿，对于网络C，其权重设置。
理论1 存在具有ReLU激活和2n + d权重的双层神经网络，其可以表示d维中大小为n的样本上的任何函数。
证明在附录C节中给出，我们还讨论如何用深度k实现宽度O（n = k）,我们认为在我们的结构中对系数向量的权值进行限制是一个简单的练习。引理1给出矩阵A的最小特征值的约束。可以用它来给出解w的权值的合理范围
5 隐式正则化：AN APPEAL TO LINEAR MODELS
虽然深度神经网络由于许多原因仍然是神秘的，但我们在本节中注意到，理解线性模型的泛化来源并不容易。事实上，如果看看是否有平行的见解可以帮助我们更好地理解神经网络。appeal to线性模型的简单情况是有用的。
假设我们选择了n个不同的数据点，{（xi,yi）}这里，xi是d维的特征向量，yi是标签。用一个损失用，（y， y）=0表示一个非负的损失函数，考虑经验损失最小化问题

如果，那么我们可以拟合任意的标签。但是，是否可以用这样一个丰富的模型类进行泛化，并且没有显式正规化？
让X表示数据矩阵第i行是。如果X的秩是n，那么方程的方程组Xw=y就有无穷多的解，不管右边是多少。我们可以通过简单地解决这个线性系统在ERM问题(2)中找到一个全局最小值。
但是，所有的全局最小值都同样适用吗? 是否有一种方法可以确定什么时候一个全局最小值可以泛化，而另一个则不会?理解最低质量的一个最流行的方法是解损失函数的曲率。但是在线性情况下，所有最优解的曲率都是一样的。看这儿，注意当y是一个标量的情况下

当y时一个向量值时也可以找到类似的公式。特别是，Hessian并不是w的选择函数，而且，Hessian在所有全局最优解中都是退化的。
如果曲率不能区分全局最小值，那该怎么办? 一个有希望的方向是考虑workhorse算法，随机梯度下降(SGD)，并检查SGD的哪个解决方案是收敛的。因为随机梯度下降的更新形式是，这儿是步长，是预测误差损失。如果，对于系数我们必须知道解的形式。因此，如果我们运行SGD，那么我们就会在数据点的跨度中有。如果我们对标签进行完美的插值我们得到了。执行这两个等式，我们就得到如下方程

有唯一解。注意，这个等式只依赖于数据点xi之间的点乘。因此，我们由此派生出了“内核技巧”(2001年)，尽管这是一种迂回的方式。
因此，我们可以通过在数据上建立Gram矩阵(也就是核矩阵)来完美地拟合任何一组标签，并解决对于α的线性的问题。这是一个线性系统，只要n小于10万，就可以在标准的(工作站) workstations上求解，就像CIFAR10和MNIST这样的小benchmarks（基准测试）一样。
令人惊讶的是，正确的拟合训练标签恰好能使凸模型的性能得到良好的表现。在没有预处理的MNIST上，我们可以通过简单地解(3)式来达到1.2%的测试误差。在没有预处理的MNIST上，我们可以通过简单的解（3）式来达到1.2%的测试误差。注意，这并不简单，因为内核矩阵需要30GB存储在内存中，尽管如此，在一个普通的24核和256gb的RAM的笔记本电脑上，这个系统可以在3分钟内解决。首先将Gabor小波变换应用于数据，然后求解（3），MNIST上的误差下降到0.6％。
令人惊讶的是，添加正则化不会提高模型的性能。
在CIFAR10上有更加类似的结果。简单地在像素上应用一个高斯核，不使用正则化就能达到46%的测试误差。通过使用具有32,000个随机滤波器的随机卷积神经网络进行预处理，该测试误差降低到17％。添加L2正则化进一步将这个数字减少到15％。请注意，这没有任何数据增强。
请注意，这个内核解决方案在隐式正则化方面具有吸引人的解释。简单代数表明它相当于Xw = y的最小二值解。也就是说，在所有模型都可以正确拟合数据之外，SGD将会以做小范数解的形式收敛到解。在不进行泛化的情况下，很容易收敛到的解：例如，一种可以拟合将高斯核拟合到数据并且将中心店放置在随机点的中心。另一种简单样本将会在测试数据上强迫数据拟合随机标签。在这两种情况下，解的范数比最小化范数解具有更大的意义。
不幸的是，这种最小规范的概念并不能预测泛化性能。例如，回到MNIST样例上，没有经过预处理的最小范数解的L2范数是近似于220.在小波预处理的情况下，这个范数跳跃到390。然而测试误差降低了2倍。因此，因此，虽然这种最小范数的直觉可能为新的算法设计提供了一些指导，但它只是泛化故事的一小部分。
6 结论
在这项工作中，我们提出了一个简单的实验框架，用于定义和理解机器学习模型有效能力的概念。我们进行的实验强调，一些成功的神经网络架构的有效能力大到足以碾压性地拟合训练数据。因此，这些模型原则上足以记忆训练数据。“这种情况对统计学习理论构成了一个概念上的挑战，因为衡量模型复杂度量的传统方法不能很好地解释大规模人工神经网络的泛化能力。我们认为，我们目前还没有发现一个精确的正式衡量方法，在这个衡量方法下，这些庞大的模型都很简单。从我们的实验得出的另一个见解是，即使最终的模型不能泛化，在实际操作中优化还是很容易的。这也表明了为什么实践中容易做优化的原因与神经网络泛化能力的原因是不同的。”

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 深度学习

相关文章推荐

新的分享

章节导航