您的位置：首页 > 其它

深度学习笔记——理论与推导之DNN（三）

2017-08-10 11:43 375 查看

DNN

目录

激励函数（ReLU以及ReLU的变形，梯度消失问题）

成本函数

数据处理

优化

一般化

激励函数：

Rectified Linear Unit(ReLU)

选择Relu的原因：

计算速度快

生物原因

类似于具有不同偏差的无限个sigmoid

可以解决梯度消失问题

sigmoid的问题（梯度消失问题）：

sigmoid function的微分函数是蓝色的线，我们可以发现，蓝线上的所有值都处于(0,1)之间，而最大值出现在x = 0的位置，值为1/4。这会导致在backward pass中，因为每通过一个layer，Error signal就要乘以一个scalar（这个scalar就是sigmoid function的导数），导致Error signal会不断被减弱，最终会导致Gradient越来越小。这会导致在neural network中越靠近input的gradient都比较小，这时，如果你选用的是一个constant learning rate，你就会发现靠近input的weight就会都比较小，也就会导致靠近input的weight值的变化会很小，也就是它learn的速度会比较慢。

那么ReLU是如何解决梯度消失的问题呢？

这是由于ReLU的导数非0即1，因此不会削弱Error signal的值。

这里需要考虑一个问题：

所有连接到偏导为0的weight都不会更新：

可能的解决方法：

softplus function

initialize with large bias

然而这个问题不会照常太大影响，因为要对多个x进行训练，所以基本上他的weight都会被训练到。

ReLU的变形：

Parametric ReLU：

Maxout ReLU：

所有的ReLU变形都是特殊的Maxout案例

左边是一般的ReLU,绿色的线是蓝线通过ReLU以后的变化；右边是Maxout ReLU，只要找到适当的参数，Maxout也可以做出和一般ReLU一样的事情。

由于w和b的值是根据data所learn出来的，所以Maxout可以也是一个可以被learn出来的activation function

如何去training maxout呢？

没用到的z可以直接去掉，所以train的其实就是一个thin和linear的network

成本函数：

直接输出cost function可能存在一个问题：

虽然上面的y的cost function的值可能更小，但就我们对nerual network的理解，应该是下面的y更准确，因为值越大代表越重要。

解决方法：softmax，将softmax layer作为output layer。

softmax就是将所有的输出值的和变为1。

如果我们用softmax layer作为output，那我们应该使用怎么样的cost function呢？

什么样的cost function是算是好的呢？output和pred相差很大时，我们的cost function需要得到较大的Error Signal，这样在fixed learning rate时我们就能快速的学习。

什么样的cost function可以搭配softmax function呢？

这里不要考虑除了r的其他维，因为我们这时候使用的是softmax，如果r维为1，或者r维尽量大，那么其他维度就会变小。

接下来我们来看一下cost entropy的error signal（因为我们需要cost function越大时，error signal也要越大）

如果yr和1的差距越大，那么error signal就会越大，反之越小，这样的话就满足了我们的要求。

i＝r的时候：

下面计算i≠r的时候

数据处理：

优化

Vanilla Graident Descent（就是之前的Gradient Descent）

如何判断learning rate是否过大(过小)：

当cost不减小，并且上下波动时，表示learning rate过大。

当cost递减速度比较慢时，表示learning rate过小

当cost第一次下降就很多时，可能表示learning rate适当。

如何确定learning rate：

一个比较简单的方法：在每次输出中，减少learning rate的值

在开始的时候我们需要比较大的learning rtae

在靠近结尾的时候，我们会减小learning rate的值。

例如：

Adagrad：将每个参数的学习率除以为它前一个偏导数的平均平方根。

下面是Adagrad的步骤：

什么是最好的步伐呢（即learning rate）？

难道Larger gradient，larger steps一定是对的吗？

如上图所示，如果从x0要到达最低点-b/2a，那么他的最好的步伐应该是|x0+b/2a|也就是|2ax0+b|/2a，2ax0+b其实就是曲线在x0的一阶导数，表面上看larger gradient确实和larger steps成正比，然而我们忽略了2a，这个2a其实就是曲线在x0的二阶导数，因此最好的步伐应该是|一阶导数|/|二阶导数|。

如果是多个参数呢？如下：

然而你如果算二次微分的速度很慢的话，这样计算learning rate就没有意义。因为如果你的learning rate设置很小，那么理论上说是可以达到一个比较好的结果的。这时候Adagrad就起到作用了，因为虽然这里Adagrad只做了一次微分，但是它的分母对二次微分做了估算。

遇到local minima 和saddle point 怎么办？

Momentum（动量）：

动量其实就是模拟物理中小球下滑的过程，即Momentum不仅仅基于gradient，还基于上一次的movement（即上次下滑的gradient），如下：

Momentum的流程：

一般化

万灵丹：

增加更多的training data

产生更多的training data，如旋转等

Early Stop（早点停下不迭代到指定的次数，不容易做到）

Weight Decay：

我们在选参数的时候，我们都是根据training-set和cost function来决定，但其实我们更喜欢的是接近0的参数，因为如下情况：

因此，我们在做learning的时候，我们想要找的不仅仅是一组可以minimizing original cost的parameter，跟是希望parameter趋近于0，如下，定义一个cost function

接下来我们对新的cost function做偏微分

这也就是wt+1会小于wt

Dropout：

在神经网络中，大规模的神经网络有两个缺点：费时和容易过拟合。而dropout的程序可以很好的解决过拟合问题，每次做完dropout，相当于从原始的网络中找到一个更瘦的网络。

dropout就是在每次迭代中，丢弃p%的神经元。

要注意的是如果在training中dropout=0.5，wij = 1，那么在Test中wij应该等于wij = 1*(1-0.5) = 0.5

因为这个时候的testing中的z这个时候就是training中z的两倍，因此weights就需要乘以(1-dropout)%

为什么dropout的效果更好呢？

可以将其理解为训练不同的网络后，对不同网络进行集成，虽然从直观上看dropout是集成(ensemble)在分类性能上的一个近似，然而实际中，dropout毕竟还是在一个神经网络上进行的，只训练出了一套模型参数，那么为什么dropout有效呢？因为dropout强迫一个神经单元，和随机挑选出来的其他神经单元共同工作，达到好的效果。消减了神经元节点之间的联合适应性，增强了泛化能力。如下：

使用一个data训练一个网络，在这个网络中还有参数共享的部分，如果有一共有M个神经元，那么就能构建出2^M个可能的网络。

对于dropout的一些可行性建议：

更大的网络：如果你需要n个神经元，那么对于dropout = p%的网络来说，你的网络就需要n/(1-p)个神经元。

更长的训练时间：

更高得到learning rate：

更大的momentum：

总结

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 深度学习

相关文章推荐

新的分享

章节导航