您的位置:首页 > 其它

深度学习之梯度检验与高级优化

2016-04-06 13:09 197 查看
反向传播算法很难调试得到正确结果,尤其是当实现程序存在很多难于发现的bug时。举例来说,索引的缺位错误(off-by-one error)会导致只有部分层的权重得到训练,再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果(但实际上比正确的结果要差)。因此,但从计算结果上来看,我们很难发现代码中有什么东西遗漏了。本节中,我们将介绍一种对求导结果进行数值检验的方法,该方法可以验证求导代码是否正确。另外,使用本节所述求导检验方法,可以帮助你提升写正确代码的信心。

缺位错误(Off-by-one error)举例说明:比如for 循环中循环m次,正确应该是
for (i=1;i<=m;i++)
,但有时程序员疏忽,会写成
for(i=1;i<m;i++)
,这就是缺位错误。

假设我们想要最小化以 θ\theta为自变量的目标函数J(θ)J(\theta)。假设 :ℜ↦ℜ : \Re \mapsto \Re,则 θ∈ℜ\theta \in \Re。在一维的情况下,一次迭代的梯度下降公式是

θ:=θ−αddθJ(θ).\begin{align}
\theta := \theta - \alpha \frac{d}{d\theta}J(\theta).
\end{align}

再假设我们已经用代码实现了计算ddθJ(θ)\frac{d}{d\theta}J(\theta) 的函数 g(θ)g(\theta),接着我们使用θ:=θ−αg(θ)\theta := \theta - \alpha g(\theta)来实现梯度下降算法。那么我们如何检验 gg的实现是否正确呢?

回忆导数的数学定义:

ddθJ(θ)=limϵ→0J(θ+ϵ)−J(θ−ϵ)2ϵ.\begin{align}
\frac{d}{d\theta}J(\theta) = \lim_{\epsilon \rightarrow 0}
\frac{J(\theta+ \epsilon) - J(\theta-\epsilon)}{2 \epsilon}.
\end{align}

那么对于任意θ\theta值,我们都可以对等式左边的导数用:

J(θ+EPSILON)−J(θ−EPSILON)2×EPSILON\begin{align}
\frac{J(\theta+{\rm EPSILON}) - J(\theta-{\rm EPSILON})}{2 \times {\rm EPSILON}}
\end{align}

来近似。

实际应用中,我们常将EPSILONEPSILON设为一个很小的常量,比如在10−410^{-4} 数量级(虽然EPSILONEPSILON的取值范围可以很大,但是我们不会将它设得太小,比如10−2010^{-20},因为那将导致数值舍入误差。)

给定一个被认为能计算 ddθJ(θ)\frac{d}{d\theta}J(\theta)的函数g(θ)g(\theta),我们可以用下面的数值检验公式

g(θ)≈J(θ+EPSILON)−J(θ−EPSILON)2×EPSILON.\begin{align}
g(\theta) \approx
\frac{J(\theta+{\rm EPSILON}) - J(\theta-{\rm EPSILON})}{2 \times {\rm EPSILON}}.
\end{align}

计算两端是否一样来检验函数是否正确。

上式两端值的接近程度取决于JJ的具体形式。但是在假定EPSILON=10−4{\rm EPSILON} = 10^{-4}的情况下,你通常会发现上式左右两端至少有4位有效数字是一样的(通常会更多)。

现在,考虑θ∈ℜn\theta \in \Re^n是一个向量而非一个实数(那么就有nn个参数要学习得到),并且J:ℜn↦ℜJ: \Re^n \mapsto \Re。在神经网络的例子里我们使用J(W,b)J(W,b),可以想象为把参数W,bW,b组合扩展成一个长向量θ\theta。现在我们将求导检验方法推广到一般化,即θ\theta是一个向量的情况。

假设我们有一个用于计算∂∂θiJ(θ)\frac{\partial}{\partial \theta_i} J(\theta)的函数gi(θ)g_i(\theta);我们想要检验gig_i是否输出正确的求导结果。我们定义θ(i+)=θ+EPSILON×e⃗ i\theta^{(i+)} = \theta +
{\rm EPSILON} \times \vec{e}_i,其中

e⃗ i=⎡⎣⎢⎢⎢⎢⎢⎢⎢00⋮1⋮0⎤⎦⎥⎥⎥⎥⎥⎥⎥\begin{align}
\vec{e}_i = \begin{bmatrix}0 \\ 0 \\ \vdots \\ 1 \\ \vdots \\ 0\end{bmatrix}
\end{align}

是第ii个基向量(维度和θ\theta相同,在第ii行是“1”而其他行是“ 0”)。所以,θ(i+)\theta^{(i+)} 和θ\theta几乎相同,除了第ii行元素增加了EPSILONEPSILON。类似地,θ(i−)=θ−EPSILON×e⃗ i\theta^{(i-)} = \theta - {\rm EPSILON} \times \vec{e}_i 得到的第 ii 行减小了 EPSILONEPSILON。然后我们可以对每个ii检查下式是否成立,进而验证 gi(θ)g_i(\theta)的正确性:

gi(θ)≈J(θ(i+))−J(θ(i−))2×EPSILON.\begin{align}
g_i(\theta) \approx
\frac{J(\theta^{(i+)}) - J(\theta^{(i-)})}{2 \times {\rm EPSILON}}.
\end{align}

当用反射传播算法求解神经网络时,正确算法实现会得到:

∇W(l)J(W,b)∇b(l)J(W,b)=(1mΔW(l))+λW(l)=1mΔb(l).\begin{align}
\nabla_{W^{(l)}} J(W,b) &= \left( \frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)} \\
\nabla_{b^{(l)}} J(W,b) &= \frac{1}{m} \Delta b^{(l)}.
\end{align}

以上结果与反向传播算法中的最后一段伪代码一致,都是计算梯度下降。为了验证梯度下降代码的正确性,使用上述数值检验方法计算 J(W,b)J(W,b)的导数,然后验证 (1mΔW(l))+λW\left(\frac{1}{m}\Delta W^{(l)} \right) + \lambda W与1mΔb(l)\frac{1}{m}\Delta b^{(l)}是否能够给出正确的求导结果。

迄今为止,我们的讨论都集中在使用梯度下降法来最小化J(θ)J(\theta)。如果你已经实现了一个计算 J(θ)J(\theta) 和 ∇θJ(θ)\nabla_\theta J(\theta) 的函数,那么其实还有更精妙的算法来最小化J(θ)J(\theta)。举例来说,可以想象这样一个算法:它使用梯度下降,并能够自动调整学习速率 α\alpha,以得到合适的步长值,最终使θ\theta能够快速收敛到一个局部最优解。还有更妙的算法:比如可以寻找一个Hessian矩阵的近似,得到最佳步长值,使用该步长值能够更快地收敛到局部最优(和牛顿法类似)。此类算法的详细讨论已超出了这份讲义的范围,但是L-BFGS算法我们以后会有论述(另一个例子是共轭梯度算法)。你将在编程练习里使用这些算法中的一个。使用这些高级优化算法时,你需要提供关键的函数:即对于任一个θ\theta,需要你计算出J(θ)J(\theta) 和∇θJ(θ)\nabla_\theta J(\theta)。之后,这些优化算法会自动调整学习速率/步长值α\alpha的大小(并计算Hessian近似矩阵等等)来自动寻找J(θ)J(\theta)最小化时θ\theta的值。诸如L-BFGS和共轭梯度算法通常比梯度下降法快很多。

注:本文参考UFLDL教程
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: