您的位置:首页 > 理论基础 > 计算机网络

神经网络过拟合问题-正则化

2018-01-13 10:54 302 查看
搭建的神经网络的过程中,可能会出现这样一种过程,网络在训练数据上的表现非常好但是在测试集上表现却比较差,很有可能是因为网络过拟合问题导致的这个差距。所谓过拟合,指的是当一个模型过为复杂之后,它可以很好的记忆每一个训练数据中随机噪音的部分而忘记了去学习训练数据中通用的趋势,如果一个模型中的参数比训练数据的总数还多,只要训练数据不冲突,这个模型就可以完全记住所有训练数据的结果而使得损失函数为0。

为了避免过拟合问题,非常常用的方法是正则化,正则化就是在损失函数中加入网络复杂程度的指标。设网络在训练数据上产生的损失函数为J(θ),网络的复杂程度为R(w),在优化参数时,不仅仅优化J(θ),而是优化J(θ)+λR(w)。这里的θ表示的是一个神经网络中所有的参数,包括边上的权重w和偏置项b,而网络复杂度一般只由权重w表示。

常见的计算网络复杂度R(w)有两种,第一种是L1正则化,公式为:



第二种是L2正则化,公式为:



使用正则化基本的思想都是希望通过限制权重的大小,使得模型不能任意拟合训练数据中的随机噪声。但是L1和L2还是有区别的,L1正则化会让参数变得更稀疏,即更多的参数变为0,类似于特征选取。其次,L1正则化公式不可导,L2正则化就可导。在实际情况中,也有将L1和L2正则化同时使用的,例如:



TensorFlow中可以优化带正则化的损失函数,例如优化带L2正则化的损失函数:

w = tf.Variable(tf.random_normal([2, 1], stddev=1, seed=1)) #权重
y = tf.matmul(x, w) #输出

loss = tf.reduce_mean(tf.square(y_-y))+tf.contrib.layers.l2_regularizer(lamda)(w)
#MSE损失函数和L2正则化,y_为正确答案


需要注意的是,如果神经网络的参数慢慢增多,那上式代码所表示的损失函数loss就会变得很长,为了解决这个问题,可以使用TensorFlow中提供的集合(collection),它可以直接提取当前计算图中的所有变量。以下代码给出了通过集合计算一个5层神经网络带L2正则化的损失函数的计算方法:

import tensorflow as tf

#获取一层神经网络边上的权重,并将这个权重的l2正则化损失加入名称为'losses'的集合中
def get_weight(shape, lamda):
var = tf.Variable(tf.random_normal(shape), dtype=tf.float32)  #shape为维度,lamda为正则化项的权重,var为神经网络的权重
#将这个权重的l2正则化损失加入名称为'losses'的集合中
#第一个参数'losses'是集合的名字,第二个参数是要加入这个集合的内容
tf.add_to_collection('losses', tf.contrib.layers.l2_regularizer(lamda)(var))
return var

x = tf.placeholder(tf.float32, shape=[None, 2]) #输入节点
y_ = tf.placeholder(tf.float32, shape=[None, 1]) #输出节点
batch_size = 8 #训练集大小
#定义了每一层网络中节点的个数
layer_dimension = [2, 10, 10, 10, 1]
n_layers = len(layer_dimension) #神经网络的层数

cur_layer = x #初始为神经网络第一层
in_dimension = layer_dimension[0] #当前层的节点个数

#通过一个循环生成5层全连接的神经网络结构
for i in range(1, n_layers):
#i从1遍历到4
#layer_dimension[i]为下一层的节点个数
out_dimension = layer_dimension[i]
# 生成当前层中权重的变量,并将这个变量的L2正则化损失加入计算图上的集合
weight = get_weight([in_dimension, out_dimension], 0.001) #0.001为正则化项的权重
bias = tf.Variable(tf.constant(0.1, shape=[out_dimension])) # 创建偏置项,每一个节点都对应一个0.1的偏置项
#使用ReLU激活函数
cur_layer = tf.nn.relu(tf.matmul(cur_layer, weight)+bias) #生成第i层的值
#进入下一层之前更新下一层的输入节点个数
in_dimension = layer_dimension[i]

#在定义神经网络前向传播的同时已经将所有的L2正则化损失加入了图上的集合
#这里只需要计算模型在训练数据上表现的损失,使用mse
mse_loss = tf.reduce_mean(tf.square(y_ - cur_layer))
#将均方误差mse加入损失集合
tf.add_to_collection('losses', mse_loss)

#get_collection返回一个列表,这个列表中是所有这个集合的元素
#这些元素在本程序中就是损失函数的不同部分,所有加起来就是最终的损失函数
loss = tf.add_n(tf.get_collection('losses')) #add_n实现一个列表的元素的相加
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐