您的位置：首页 > 理论基础 > 计算机网络

吴恩达《深度学习工程师》Part1.Week4 深层神经网络

2018-02-18 23:21 211 查看

4.1深层神经网络

图1 不同深度的神经网络

图1是神经网络从浅层到深层的过渡过程，logistic回归过程可以看作单层的神经网络，2层或3层神经网络是较浅层的神经网络，最后一个神经网络层数已经达到6层，可以认为是深层的神经网络。

图2 深层神经网络中的符号

n[l]n[l]表示第ll层的节点数，a[l]a[l]表示第ll层的活化值，w[l]w[l]和b[l]b[l]表示第ll层的权重和偏置。

4.2 深层网络中的向前传播

略

4.3 核对矩阵的维数

略

4.4 为什么使用深层表示

深层神经网络能够处理很多问题，实际上不需要很大的神经网络，只需要深度够深，也就是层数够多就可以了。

为什么深度神经网络表现这么出色呢？下面以人脸检测系统为例进行说明。

图3 深层神经网络的直观理解

图3 中第一层中的每个单元对应第一个表格中的每个方块，每个方块代表一个边缘检测器，用于检测不同方向的人脸边缘。第二层可以看成时将第一层的边缘按照不同的方式组合起来，形成了人脸中鼻子、耳朵、眼睛等部分。第三层把这些鼻子、眼睛组合起来，就可以检测不同的人脸。

第一层边缘检测的区域较小，是非常细微的特征，而后面第三层的面部检测的范围较大，检测的是较为宏观的特征。深度神经网络一般是从细微特征开始，逐步升级到宏观特性较强的特征中。

类似的，在进行语音识别分析时，首先检测细微的音频特征，例如音调的上升或下降，再将这些低级特征组合起来，分析声音的基本单元，即语言学中的音位。再把这些音位组合起来，就可以识别单词了。继续组合单层就可以识别词组、句子等。

4.5 搭建深层神经网络块

图4 深层神经网络的网络块

如图4所示，以深层神经网络中的一层为例，每一层的前向传播和反向传播可以概括为右图的网络块。

对于ll层，参数为w[l]w[l]和b[l]b[l]

前向传播的输入为：a[l−1]a[l−1]，输出为：a[l]a[l]

缓存为z[l]z[l]，z[l]=w[l]a[l−1]+b[l]z[l]=w[l]a[l−1]+b[l]

激活值为a[l]a[l]，a[l]=g[l](z[l])a[l]=g[l](z[l])

反向传播的输入为：da[l]da[l]，w[l]w[l]和b[l]b[l]，缓存z[l]z[l]

输出为：da[l−1]da[l−1]，dw[l]dw[l]和db[l]db[l]

将上述网络块连接起来，就构成了一个深度神经网络的前向传播和反向传播过程，如图5所示。

图5 深层神经网络的网络块表示

4.6 前向传播和反向传播

略

4.7 参数VS超参数

想要深层神经网络达到很好的效果，需要很好的规划模型的参数以及超参数。

参数是指权重WW和bb。

超参数是指能够影响参数的一些值，包括：学习率αα、梯度下降迭代的次数、隐藏层的层数，隐藏层的节点数目、激活函数的选择、以及后面要讲到的momentum、minibatch size、正则化参数等。

图6 超参数的确定流程

如图6所示，在确定模型的超参数时，一般可以先参考其他人的参数，加上自己的直觉设定一个初始值，然后进行测试，可以根据代价函数的下降情况进行不断的调试，直到满意为止。

另外，由于输入数据的结构随着时间发生特征的变化，有时候调试好的参数可能会失效，那就需要重新进行调试。

4.8 这和大脑有什么关系？

略

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航