您的位置：首页 > 其它

梯度下降和随机梯度下降为什么能下降？

2017-04-06 21:13 211 查看

首先，我们假设cost function为：

$C(w,b)=\frac{1}{2n}\sum_{x}^{ }\left \| y(x)-a \right \|^{2}$

其中，w,b为网络参数，x为训练样本，n为样本数量，y(x)为x的标签，a为网络输出。

我们训练的目的就是让cost function取得最小。为了看起来方便，我们令
$v=[w,b]$
,则：

$C(v)=\frac{1}{2n}\sum_{x}^{ }\left \| y(x)-a \right \|^{2}$
（1）

为了方便理解，我们先假设v只有2维
$v=[v_{1}^{ },v_{2}^{ }]$
,我们要做的就是通过不断调整
$v_{1}^{ },v_{2}^{ }$
使得
$C(v)$
最小。可以通过下图理解，我们为小球选择一个方向，让它往下滚，直到小球滚到“山谷”。

我们令
$v$
在
$v_{1}^{}$
方向改变
$\Delta v_{1}^{}$
，在
$v_{2}^{}$
方向改变
$\Delta v_{2}^{}$
，由微积分知识可知：

$\Delta C\approx \frac{\partial C}{\partial v_{1}^{ }}\Delta v_{1}^{}+\frac{\partial C}{\partial v_{2}^{ }}\Delta v_{2}^{ }$

（2）

即每次
$C$
改变
$\Delta C$
，改变后为
$C+\Delta C$
。为了使
$C$
不断变小，
$\Delta C$
必须为负。

令
$\Delta v=(\Delta v_{1}^{ },\Delta v_{2}^{ })^{T}$
，（3）

$\triangledown C=(\frac{\partial C}{\partial v_{1}^{ }},\frac{\partial C}{\partial v_{2}^{ }})$

（4）

(注意这里的上三角和下三角)

则由（2）、（3）、（4）有：

$\Delta C\approx \triangledown C.\Delta v$
（5）

我们的目标是让
$\Delta C$
为负，假设：

$\Delta v=-\eta \triangledown C$
(6)

其中
$\eta$
是一个很小的正数(实际上就是我们所说的学习率)，那么，由(5)和(6)：

$\Delta C\approx -\eta \left \|\triangledown C \right \|^{2}$
(7)

由于
$\left \| \triangledown C \right \|^{2}\geqslant 0$
，所以
$\Delta C\leqslant 0$
,那么，
$C$
就会一直往减小的方向走，即小球一直往“山谷”滚下去。

我们训练的目的是得到模型参数
$v$
，由（6）知
$v$
的更新公式为：

$v=v-\eta \triangledown C$
(8)

如果将
$v$
重新看成
$v=[w,b]$
，那么：

$w_{k}^{ }\rightarrow w_{k}^{{}'}=w_{k}-\eta \frac{\partial C}{\partial w_{k}}$

(9)

$b_{l}^{ }\rightarrow b_{l}^{{}'}=b_{l}-\eta \frac{\partial C}{\partial b_{l}}$

(10)

通过不断计算
$\triangledown C$
，更新参数
$v$
，最终得到
$C(v)$
最小(或足够小)。

实际应用中，应用梯度下降存在很多难题。我们回到cost function：

$C(w,b)=\frac{1}{2n}\sum_{x}^{ }\left \| y(x)-a \right \|^{2}$
，我们写成这个形式：

$C=\frac{1}{n}\sum_{x}^{ }C_{x}$
（11）

也就是说：

$C_{x}\equiv \frac{\left \| y(x)-a \right \|^{2}}{2}$
（12）

其中（12）是对于其中一个训练样本而言的cost funtion。

为了计算
$\triangledown C$
，我们要对每一个样本计算
$\triangledown C_{x}$
，然后，计算平均：

$\triangledown C= \frac{1}{n}\sum_{x}^{ }\triangledown C_{x}$
（13）

因此，当训练样本很多时，计算(13)要很长时间。

由此引出的一个想法叫随机梯度下降(stochastic gradient descent,SGD)，它能加快学习的速度。

这个想法的idea是在训练样本中随机的选择一批样本，然后通过该批样本的各
$\triangledown C_{x}$
，通过（13）计算
$\triangledown C$
。

（此时公式（13）中的n为该批样本的数量）。

为了使随机梯度下降法更有效，SGD随机选择训练样本中的一个小样本集，大小为m，我们记这些样本为：

$X_{1},X_{2},...,X_{m}$
。这样一批样本称为mini-batch。

假设m足够大，那么
$\triangledown C_{X_{j}}$
的平均大约等于
$\triangledown C_{x}$
的平均，即：

$\frac{\sum_{j=1}^{m}\triangledown C_{X_{j}}}{m}\approx \frac{\sum_{x}^{ }\triangledown C_{x}}{n}= \triangledown C$

（14）

其中第二项的n为训练样本总数，由此可得：

$\triangledown C\approx \frac{1}{m}\sum_{j=1}^{m}\triangledown C_{X_{j}}$
（15）

那么，w和b的更新公式变为：

$w_{k}\rightarrow w_{k}^{{}'}=w_{k}-\frac{\eta }{m}\sum_{j}^{ }\frac{\partial C_{X_{j}}}{\partial w_{k}}$

（16）

$b_{l}\rightarrow b_{l}^{{}'}=b_{l}-\frac{\eta }{m}\sum_{j}^{ }\frac{\partial C_{X_{j}}}{\partial b_{l}}$

（17）

训练完一个mini-batch后，就取另一个mini-batch，直到训练完整个训练集，这就是一个epoch。

有时候，我们可能不知道样本数量n(或者m),我们可以不求平均，直接用和计算。我们看（16）和（17）,去掉m实际上可以看作增大学习率。实际应用中那个效果更好看具体问题而定。

最后，我们总结一下随机梯度下降的过程：

（1）初始化网络参数；

（2）在训练集中取mini-batch
$X_{1},X_{2},...,X_{m}$
，计算
$\frac{1}{m}\sum_{j}^{ }\frac{\partial C_{X_{j}}}{\partial w_{k}}$
，
$\frac{1}{m}\sum_{j}^{ }\frac{\partial C_{X_{j}}}{\partial b_{l}}$
；

（3）由公式（16）和（17）更新参数w，b；

（4）重复（2）-（3），直到C最小(足够小)；

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航