神经网络过拟合问题-正则化
2018-01-13 10:54
302 查看
搭建的神经网络的过程中,可能会出现这样一种过程,网络在训练数据上的表现非常好但是在测试集上表现却比较差,很有可能是因为网络过拟合问题导致的这个差距。所谓过拟合,指的是当一个模型过为复杂之后,它可以很好的记忆每一个训练数据中随机噪音的部分而忘记了去学习训练数据中通用的趋势,如果一个模型中的参数比训练数据的总数还多,只要训练数据不冲突,这个模型就可以完全记住所有训练数据的结果而使得损失函数为0。
为了避免过拟合问题,非常常用的方法是正则化,正则化就是在损失函数中加入网络复杂程度的指标。设网络在训练数据上产生的损失函数为J(θ),网络的复杂程度为R(w),在优化参数时,不仅仅优化J(θ),而是优化J(θ)+λR(w)。这里的θ表示的是一个神经网络中所有的参数,包括边上的权重w和偏置项b,而网络复杂度一般只由权重w表示。
常见的计算网络复杂度R(w)有两种,第一种是L1正则化,公式为:
第二种是L2正则化,公式为:
使用正则化基本的思想都是希望通过限制权重的大小,使得模型不能任意拟合训练数据中的随机噪声。但是L1和L2还是有区别的,L1正则化会让参数变得更稀疏,即更多的参数变为0,类似于特征选取。其次,L1正则化公式不可导,L2正则化就可导。在实际情况中,也有将L1和L2正则化同时使用的,例如:
TensorFlow中可以优化带正则化的损失函数,例如优化带L2正则化的损失函数:
需要注意的是,如果神经网络的参数慢慢增多,那上式代码所表示的损失函数loss就会变得很长,为了解决这个问题,可以使用TensorFlow中提供的集合(collection),它可以直接提取当前计算图中的所有变量。以下代码给出了通过集合计算一个5层神经网络带L2正则化的损失函数的计算方法:
为了避免过拟合问题,非常常用的方法是正则化,正则化就是在损失函数中加入网络复杂程度的指标。设网络在训练数据上产生的损失函数为J(θ),网络的复杂程度为R(w),在优化参数时,不仅仅优化J(θ),而是优化J(θ)+λR(w)。这里的θ表示的是一个神经网络中所有的参数,包括边上的权重w和偏置项b,而网络复杂度一般只由权重w表示。
常见的计算网络复杂度R(w)有两种,第一种是L1正则化,公式为:
第二种是L2正则化,公式为:
使用正则化基本的思想都是希望通过限制权重的大小,使得模型不能任意拟合训练数据中的随机噪声。但是L1和L2还是有区别的,L1正则化会让参数变得更稀疏,即更多的参数变为0,类似于特征选取。其次,L1正则化公式不可导,L2正则化就可导。在实际情况中,也有将L1和L2正则化同时使用的,例如:
TensorFlow中可以优化带正则化的损失函数,例如优化带L2正则化的损失函数:
w = tf.Variable(tf.random_normal([2, 1], stddev=1, seed=1)) #权重 y = tf.matmul(x, w) #输出 loss = tf.reduce_mean(tf.square(y_-y))+tf.contrib.layers.l2_regularizer(lamda)(w) #MSE损失函数和L2正则化,y_为正确答案
需要注意的是,如果神经网络的参数慢慢增多,那上式代码所表示的损失函数loss就会变得很长,为了解决这个问题,可以使用TensorFlow中提供的集合(collection),它可以直接提取当前计算图中的所有变量。以下代码给出了通过集合计算一个5层神经网络带L2正则化的损失函数的计算方法:
import tensorflow as tf #获取一层神经网络边上的权重,并将这个权重的l2正则化损失加入名称为'losses'的集合中 def get_weight(shape, lamda): var = tf.Variable(tf.random_normal(shape), dtype=tf.float32) #shape为维度,lamda为正则化项的权重,var为神经网络的权重 #将这个权重的l2正则化损失加入名称为'losses'的集合中 #第一个参数'losses'是集合的名字,第二个参数是要加入这个集合的内容 tf.add_to_collection('losses', tf.contrib.layers.l2_regularizer(lamda)(var)) return var x = tf.placeholder(tf.float32, shape=[None, 2]) #输入节点 y_ = tf.placeholder(tf.float32, shape=[None, 1]) #输出节点 batch_size = 8 #训练集大小 #定义了每一层网络中节点的个数 layer_dimension = [2, 10, 10, 10, 1] n_layers = len(layer_dimension) #神经网络的层数 cur_layer = x #初始为神经网络第一层 in_dimension = layer_dimension[0] #当前层的节点个数 #通过一个循环生成5层全连接的神经网络结构 for i in range(1, n_layers): #i从1遍历到4 #layer_dimension[i]为下一层的节点个数 out_dimension = layer_dimension[i] # 生成当前层中权重的变量,并将这个变量的L2正则化损失加入计算图上的集合 weight = get_weight([in_dimension, out_dimension], 0.001) #0.001为正则化项的权重 bias = tf.Variable(tf.constant(0.1, shape=[out_dimension])) # 创建偏置项,每一个节点都对应一个0.1的偏置项 #使用ReLU激活函数 cur_layer = tf.nn.relu(tf.matmul(cur_layer, weight)+bias) #生成第i层的值 #进入下一层之前更新下一层的输入节点个数 in_dimension = layer_dimension[i] #在定义神经网络前向传播的同时已经将所有的L2正则化损失加入了图上的集合 #这里只需要计算模型在训练数据上表现的损失,使用mse mse_loss = tf.reduce_mean(tf.square(y_ - cur_layer)) #将均方误差mse加入损失集合 tf.add_to_collection('losses', mse_loss) #get_collection返回一个列表,这个列表中是所有这个集合的元素 #这些元素在本程序中就是损失函数的不同部分,所有加起来就是最终的损失函数 loss = tf.add_n(tf.get_collection('losses')) #add_n实现一个列表的元素的相加
相关文章推荐
- 机器学习:神经网络、正则化、多分类问题与Python代码实现
- 关于神经网络中过拟合的问题
- 79、tensorflow计算一个五层神经网络的正则化损失系数、防止网络过拟合、正则化的思想就是在损失函数中加入刻画模型复杂程度的指标
- 深层神经网络的正则化问题
- 七、改进神经网络的学习方法(3):过拟合及改进方法(正则化、Dropout)
- 79、tensorflow计算一个五层神经网络的正则化损失系数、防止网络过拟合、正则化的思想就是在损失函数中加入刻画模型复杂程度的指标
- 斯坦福大学深度学习公开课cs231n学习笔记(7)神经网络防止数据过拟合:损失函数和正则化
- Coursera deeplearning.ai 深度学习笔记2-1-Practical aspects of deep learning-神经网络实际问题分析(初始化&正则化&训练效率)与代码实现
- [DeeplearningAI笔记]改善深层神经网络1.4_1.8深度学习实用层面_正则化Regularization与改善过拟合
- 神经网络权重初始化问题
- 【问题】检验神经网络中是否出现nan的方法
- 十三、神经网络梯度不稳定问题(即梯度消失 & 梯度爆炸问题)
- 神经网络简介-防止过拟合
- 神经网络解决分类问题步骤
- 循环神经网络教程3-BP算法和梯度消失问题, Part 3 – Backpropagation Through Time and Vanishing Gradients
- (二)神经网络入门之Logistic回归(分类问题)
- 神经网络优化中的病态问题
- 有趣的机器学习概念纵览:从多元拟合,神经网络到深度学习,给每个感兴趣的人
- Tricks(四十)—— 神经网络解决与(或)及异或问题
- 学习笔记:Deep Learning(二)深度神经网络以及正则化