DAY5:神经网络及深度学习基础
2018-01-25 11:30
399 查看
一、输入特征的归一化处理
零均值化: μ=(1/m)*∑xi x=x-μ
归一化方差:σ=(1/m)*Σ(xi-μ) x=x/σ
什么时候要进行归一化处理,为什么要进行归一化处理?
当不同的feature之间的取值范围相差较大的时候,比如x1的范围为0~1,而x2的范围为0~1000的时候要进行归一化处理
进行归一化处理可以使得loss函数的图形在空间中由狭长(learning rate很小)变得圆滑(learning rate不用取一个很小的值),
使得梯度下降时收敛的速度加快。
二、Gradients Vanishing/Exploding(梯度消失/梯度爆炸)
三、Debug之Gradient Checking
众所周知,反向传播算法很难调试得到正确结果,尤其是当实现程序存在很多难于发现的bug时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练,再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但实际上比正确代码的结果要差)。因此,但从计算结果上来看,我们很难发现代码中有什么东西遗漏了。本节中,我们将介绍一种对求导结果进行数值检验的方法,该方法可以验证求导代码是否正确。另外,使用本节所述求导检验方法,可以帮助你提升写正确代码的信心。
假设我们想要最小化以
为自变量的目标函数
。假设
,则
。在一维的情况下,一次迭代的梯度下降公式是
再假设我们已经用代码实现了计算
的函数
,接着我们使用
来实现梯度下降算法。那么我们如何检验
的实现是否正确呢?
回忆导数的数学定义:
那么对于任意
值,我们都可以对等式左边的导数用:
来近似。
实际应用中,我们常将
设为一个很小的常量,比如在
数量级(虽然
的取值范围可以很大,但是我们不会将它设得太小,比如
,因为那将导致数值舍入误差。)
给定一个被认为能计算
的函数
,我们可以用下面的数值检验公式
计算两端是否一样来检验函数是否正确。
上式两端值的接近程度取决于
的具体形式。但是在假定
的情况下,你通常会发现上式左右两端至少有4位有效数字是一样的(通常会更多)。
现在,考虑
是一个向量而非一个实数(那么就有
个参数要学习得到),并且
。在神经网络的例子里我们使用
,可以想象为把参数
组合扩展成一个长向量
。现在我们将求导检验方法推广到一般化,即
是一个向量的情况。
假设我们有一个用于计算
的函数
;我们想要检验
是否输出正确的求导结果。我们定义
,其中
是第
个基向量(维度和
相同,在第
行是“
”而其他行是“
”)。所以,
和
几乎相同,除了第
行元素增加了
。类似地,
得到的第
行减小了
。然后我们可以对每个
检查下式是否成立,进而验证
的正确性:
当用反射传播算法求解神经网络时,正确算法实现会得到:
以上结果与反向传播算法中的最后一段伪代码一致,都是计算梯度下降。为了验证梯度下降代码的正确性,使用上述数值检验方法计算
的导数,然后验证
与
是否能够给出正确的求导结果。
迄今为止,我们的讨论都集中在使用梯度下降法来最小化
。如果你已经实现了一个计算
和
的函数,那么其实还有更精妙的算法来最小化
。举例来说,可以想象这样一个算法:它使用梯度下降,并能够自动调整学习速率
,以得到合适的步长值,最终使
能够快速收敛到一个局部最优解。还有更妙的算法:比如可以寻找一个Hessian矩阵的近似,得到最佳步长值,使用该步长值能够更快地收敛到局部最优(和牛顿法类似)。此类算法的详细讨论已超出了这份讲义的范围,但是L-BFGS算法我们以后会有论述(另一个例子是共轭梯度算法)。你将在编程练习里使用这些算法中的一个。使用这些高级优化算法时,你需要提供关键的函数:即对于任一个
,需要你计算出
和
。之后,这些优化算法会自动调整学习速率/步长值
的大小(并计算Hessian近似矩阵等等)来自动寻找
最小化时
的值。诸如L-BFGS和共轭梯度算法通常比梯度下降法快很多。
import numpy as np
def sigmoid(z):
return 1.0/(1+np.exp(-z))
def sigmoid_derivative(z):
return sigmoid(z)*(1-sigmoid(z))
def gradient_checking(f,x0,epsilon):
return (f(x0+epsilon)-f(x0-epsilon))/(2*epsilon)
if __name__=='__main__':
x0 = np.array([1,2,3])
epsilon = 1e-2
print(sigmoid_derivative(x0))
#[ 0.19661193 0.10499359 0.04517666]
print(gradient_checking(sigmoid,x0,epsilon))
#[ 0.19661134 0.10499423 0.04517721] some tips about gradient checking
零均值化: μ=(1/m)*∑xi x=x-μ
归一化方差:σ=(1/m)*Σ(xi-μ) x=x/σ
什么时候要进行归一化处理,为什么要进行归一化处理?
当不同的feature之间的取值范围相差较大的时候,比如x1的范围为0~1,而x2的范围为0~1000的时候要进行归一化处理
进行归一化处理可以使得loss函数的图形在空间中由狭长(learning rate很小)变得圆滑(learning rate不用取一个很小的值),
使得梯度下降时收敛的速度加快。
二、Gradients Vanishing/Exploding(梯度消失/梯度爆炸)
三、Debug之Gradient Checking
众所周知,反向传播算法很难调试得到正确结果,尤其是当实现程序存在很多难于发现的bug时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练,再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但实际上比正确代码的结果要差)。因此,但从计算结果上来看,我们很难发现代码中有什么东西遗漏了。本节中,我们将介绍一种对求导结果进行数值检验的方法,该方法可以验证求导代码是否正确。另外,使用本节所述求导检验方法,可以帮助你提升写正确代码的信心。
假设我们想要最小化以
为自变量的目标函数
。假设
,则
。在一维的情况下,一次迭代的梯度下降公式是
再假设我们已经用代码实现了计算
的函数
,接着我们使用
来实现梯度下降算法。那么我们如何检验
的实现是否正确呢?
回忆导数的数学定义:
那么对于任意
值,我们都可以对等式左边的导数用:
来近似。
实际应用中,我们常将
设为一个很小的常量,比如在
数量级(虽然
的取值范围可以很大,但是我们不会将它设得太小,比如
,因为那将导致数值舍入误差。)
给定一个被认为能计算
的函数
,我们可以用下面的数值检验公式
计算两端是否一样来检验函数是否正确。
上式两端值的接近程度取决于
的具体形式。但是在假定
的情况下,你通常会发现上式左右两端至少有4位有效数字是一样的(通常会更多)。
现在,考虑
是一个向量而非一个实数(那么就有
个参数要学习得到),并且
。在神经网络的例子里我们使用
,可以想象为把参数
组合扩展成一个长向量
。现在我们将求导检验方法推广到一般化,即
是一个向量的情况。
假设我们有一个用于计算
的函数
;我们想要检验
是否输出正确的求导结果。我们定义
,其中
是第
个基向量(维度和
相同,在第
行是“
”而其他行是“
”)。所以,
和
几乎相同,除了第
行元素增加了
。类似地,
得到的第
行减小了
。然后我们可以对每个
检查下式是否成立,进而验证
的正确性:
当用反射传播算法求解神经网络时,正确算法实现会得到:
以上结果与反向传播算法中的最后一段伪代码一致,都是计算梯度下降。为了验证梯度下降代码的正确性,使用上述数值检验方法计算
的导数,然后验证
与
是否能够给出正确的求导结果。
迄今为止,我们的讨论都集中在使用梯度下降法来最小化
。如果你已经实现了一个计算
和
的函数,那么其实还有更精妙的算法来最小化
。举例来说,可以想象这样一个算法:它使用梯度下降,并能够自动调整学习速率
,以得到合适的步长值,最终使
能够快速收敛到一个局部最优解。还有更妙的算法:比如可以寻找一个Hessian矩阵的近似,得到最佳步长值,使用该步长值能够更快地收敛到局部最优(和牛顿法类似)。此类算法的详细讨论已超出了这份讲义的范围,但是L-BFGS算法我们以后会有论述(另一个例子是共轭梯度算法)。你将在编程练习里使用这些算法中的一个。使用这些高级优化算法时,你需要提供关键的函数:即对于任一个
,需要你计算出
和
。之后,这些优化算法会自动调整学习速率/步长值
的大小(并计算Hessian近似矩阵等等)来自动寻找
最小化时
的值。诸如L-BFGS和共轭梯度算法通常比梯度下降法快很多。
import numpy as np
def sigmoid(z):
return 1.0/(1+np.exp(-z))
def sigmoid_derivative(z):
return sigmoid(z)*(1-sigmoid(z))
def gradient_checking(f,x0,epsilon):
return (f(x0+epsilon)-f(x0-epsilon))/(2*epsilon)
if __name__=='__main__':
x0 = np.array([1,2,3])
epsilon = 1e-2
print(sigmoid_derivative(x0))
#[ 0.19661193 0.10499359 0.04517666]
print(gradient_checking(sigmoid,x0,epsilon))
#[ 0.19661134 0.10499423 0.04517721] some tips about gradient checking
相关文章推荐
- 深度学习基础1(神经网络)
- DAY2:神经网络基础和深度学习笔记整理
- 深度学习-基础概念:神经元(Neurons)、Sigmoid 函数与神经网络基本结构
- 深度学习基础模型算法原理及编程实现--06.循环神经网络
- 深度学习DeepLearning.ai系列课程学习总结:2. 神经网络基础
- 零基础入门深度学习(5) - 循环神经网络
- 神经网络和深度学习-第二周神经网络基础-第二节:Logistic回归
- python 深度学习、python神经网络算法、python数据分析、python神经网络算法数学基础教学
- 【深度学习 论文综述】深度神经网络全面概述:从基本概念到实际模型和硬件基础
- 神经网络和深度学习-第二周神经网络基础-第七节:计算图
- 深度学习:自编码器、神经网络基础
- 神经网络和深度学习-第二周神经网络基础-第八节:计算图的导数计算
- 深度学习基础知识(1)神经网络理解
- 吴恩达《深度学习-神经网络和深度学习》2--神经网络基础
- DAY1:神经网络基础和深度学习笔记整理
- 深度学习基础模型算法原理及编程实现--04.改进神经网络的方法
- 吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记(1-2)-- 神经网络基础
- 一名工程师对于深度学习的理解-神经网络基础ANN
- 深度学习之四:卷积神经网络基础
- 零基础入门深度学习(3) - 神经网络和反向传播算法