您的位置：首页 > 理论基础 > 计算机网络

深层神经网络的正则化问题

2017-12-12 17:53 190 查看

1. 什么是正则化

我们知道，在使用神经网络进行分类时，有时会出现“训练集的分类效果很好而测试集的分类效果却不理想”这种现象。这种现象称之为“过拟合”，“正则化”的提出就是为了解决这个问题。那么究竟什么才是“正则化”呢？首先让我们来看下面两个公式：

（1）式是我们之前定义的代价函数，（2）式相对于（1）式而言增加了右边一项，增加的那项称之为“L2正则项”。那么“L2正则项”是如何避免模型“过拟合”呢？下面我们来简单分析一下：我们在训练模型时，为了降低代价函数往往会尽可能拟合训练集，这就使得我们训练的模型变得复杂，而过于复杂的模型就不能很好的预测未知数据（也就会出现“过拟合”现象），而“L2正则项”的出现就会制约着模型变得复杂（左边项的值减少，模型变复杂就会使得右边项的值增加），因此正则化可以解决“过拟合”问题。
2. 常见“正则项”
除了上面提及的“L2正则项”，还有一种常用的正则化方法——dropout正则化。dropout正则化的工作原理是：在每一次迭代中，通过设置keep_prob这一变量来随机删除（设置对应权值为0）若干个神经元，删除的这些神经元对网络没有作用，从而可以简化网络。在使用dropout正则化时，有以下几点需要注意：
dropout是一种正则化方法
4000
；
只是在训练过程中使用dropout正则化，而在测试阶段不使用；
在训练过程中，前向传播和后向传播都要用到dropout;
在训练过程中，每层通过除以keep_prob来保持同样的期望值。例如，如果keep_prob是0.5，那么我们将平均关闭一半的节点，所以输出将被缩放0.5，因为只剩下一半对解决方案有贡献。除以0.5相当于乘以2。因此，输出现在具有相同的期望值。

3. 实验比较
借助某一数据集，来比较未使用正则项、使用L2正则项和使用dropout这三种模型比较。实验结果如下表所示：

model	train accuracy	test accuracy
3-layer NN without regularization	95%	91.5%
3-layer NN with L2-regularization	94%	93%
3-layer NN with dropout	93%	95%

通过实验结果来看，正规化会有损训练集的表现，这是因为它限制了网络过度训练集的能力。但是由于它最终提供了更好的测试准确性，因此它是有用的。

4. 小结
正规化有助于降低“过拟合”。
正规化使权重变得更小。
L2正规化和dropout是两种非常有效的正则化方法。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航