您的位置:首页 > 理论基础 > 计算机网络

Tensorflow笔记:反向传播,搭建神经网络的八股,(损失函数loss,均方误差MSE,反向传播训练方法,学习率)

2019-07-10 12:48 1326 查看
版权声明:署名,允许他人基于本文进行创作,且必须基于与原先许可协议相同的许可协议分发本文 (Creative Commons

一、反向传播 
反向传播:训练模型参数,在所有参数上用梯度下降,使 NN 模型在训练数据上的损失函数最小。 


损失函数(loss):计算得到的预测值 y 与已知答案 y_的差距。 
损失函数的计算有很多方法,均方误差 MSE 是比较常用的方法之一。

 
均方误差 MSE:求前向传播计算结果与已知答案之差的平方再求平均。 
 
用 tensorflow 函数表示为: 

[code]loss_mse = tf.reduce_mean(tf.square(y_ - y)) 


反向传播训练方法:以减小 loss 值为优化目标,有梯度下降momentum 优化器adam 优化器等优化方法。 
这三种优化方法用 tensorflow 的函数可以表示为: 

[code]train_step=tf.train.GradientDescentOptimizer(learning_rate).minimize(loss) 

 

[code]train_step=tf.train.MomentumOptimizer(learning_rate, momentum).minimize(loss) 

 

[code]train_step=tf.train.AdamOptimizer(learning_rate).minimize(loss) 


三种优化方法区别如下: 
tf.train.GradientDescentOptimizer()使用随机梯度下降算法,使参数沿着梯度的反方向,即总损失减小的方向移动,实现更新参数。 

 

参数更新公式是 
 


其中,𝐽(𝜃)为损失函数,𝜃为参数,𝛼为学习率。 
tf.train.MomentumOptimizer()在更新参数时,利用了超参数,参数更新公式
是 
𝑑𝑖 = 𝛽𝑑𝑖−1 + 𝑔(𝜃𝑖−1) 
𝜃𝑖 = 𝜃𝑖−1 − 𝛼𝑑𝑖 
其中,𝛼为学习率,超参数为𝛽,𝜃为参数,𝑔(𝜃𝑖−1)为损失函数的梯度。 


tf.train.AdamOptimizer()是利用自适应学习率的优化算法,Adam 算法和随机梯度下降算法不同。随机梯度下降算法保持单一的学习率更新所有的参数,学习率在训练过程中并不会改变。而 Adam 算法通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。 

 

学习率:决定每次参数更新的幅度。 优化器中都需要一个叫做学习率的参数,使用时,如果学习率选择过大会出现震荡不收敛的情况,如果学习率选择过小,会出现收敛速度慢的情况。我们可以选个比较小的值填入,比如 0.01、0.001。 

二、搭建神经网络的八股 
我们最后梳理出神经网络搭建的八股,神经网络的搭建课分四步完成:准备工作、前向传播、反向传播和循环迭代。 
0.导入模块,生成模拟数据集; 
                import 
                常量定义 
                生成数据集     
1.前向传播:定义输入、参数和输出 
                 x=        y_= 
                 w1=       w2= 
                 a=        y= 
2. 反向传播:定义损失函数、反向传播方法 
loss= 
train_step= 


3. 生成会话,训练 STEPS 轮 
 

[code]with tf.session() as sess 
 Init_op=tf. global_variables_initializer() 
 sess_run(init_op) 
 STEPS=3000 
 for i in range(STEPS): 
  start= 
  end= 
  sess.run(train_step, feed_dict:) 

 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: