您的位置：首页 > 理论基础 > 计算机网络

机器学习入门：你应该学习的8个神经网络结构（二）

2018-01-07 23:28 344 查看

在第一部分中，我们介绍了两种神经网络结构：感知器和卷积神经网络。卷积神经网络是第一种受到广泛认可的深度神经网络，它非常适合处理图像，但并不是特别适合语音之类的时间序列数据。

在本文中，我们将继续介绍专门用来处理序列数据的两种结构：基本的递归神经网络、改进的LSTM递归神经网络。

3 - 递归神经网络

为了理解递归神经网络（RNN：Recurrent Neural Network），我们需要简单地回顾一下针对序列数据的建模问题。当将机器学习应用于序列数据时，我们通常会将输入序列变换到（另一个域中的）输出序列; 例如，将一系列的音频采样新号映射为一系列的单词。当不存在额外的目标序列时，我们也可以尝试将输入序列中的下一个成员作为网络的学习目标，因此可以使用时序提前1步的输入序列作为目标输出序列。这听起来比机器视觉中常常使用图像中的一部分像素去预测另一部分像素更自然、更合理一些。由于序列可以使用下一个成员作为学习的监督信号，这模糊了有监督学习和无监督学习之间的区别。因此，RNN可以使用专为监督学习设计的方法，但不需要提供额外的目标数据。

无记忆模型是应对这类序列任务的标准方法。具体而言，自回归模型可以从序列的若干（历史）成员中使用“延迟抽头”来预测序列的下一个成员; 并且前馈神经网络本身就是使用了若干层非线性隐单元的广义自回归模型。但是，如果我们给生成式模型添加一些隐状态，并进一步赋予其动态，我们就可以得到一个更有趣的模型：它可以将信息长期（跨越多个时间步）存储在这些隐状态中。如果隐单元的动态以及从隐单元生成输出的方式是有噪声的，那么我们将永远无法知道网络的确切状态，至多可以推断隐状态矢量空间上的概率分布。

递归神经网络非常强大，因为它整合了两个关键技术：1）分布式隐状态可以有效地存储大量有关过去的信息; 2）非线性动态能够以复杂的方式更新隐状态。如果有足够的神经元和时间，RNN可以执行任何计算。那么RNN会展示出什么样的行为呢？ RNN可能会震荡，也可能稳定在某个吸引子，从而展示出混沌的现象。 RNN可能会学到很多小程序（模型），每个小程序只需要捕获序列局部的知识，这些小程序可以并行运行、相互作用从而产生非常复杂的效果。

然而，由于梯度消失（或爆炸）的问题，RNN很难训练。当用于训练的梯度新号反向传播经过多层时，大小会如何变化？如果层之间的连接权重很小，则前一层得到的梯度将指数级缩小。如果连接权重很大，则前一层得到的梯度会成指数级增长。典型的前馈神经网络可以应付得了这样的指数效应，因为它们只有很少的隐藏层。但是，在训练长序列的RNN时，梯度就很容易爆炸或消失。即使初始权重选的很好，也很难利用当前目标输出和多个时间步长之前的输入进行训练，所以RNN难以处理序列中的长程依赖。

基本上，有4种方法可以有效的训练RNN，不过第一种方法得到了最广泛地认可和应用：

长程短期记忆：利用专门设计的长程记忆单元来构建RNN。

海森自由优化：使用一个相当酷炫的优化器来处理消失梯度问题，这个优化器可以检测出微小的梯度方向。

回声状态网络：通过仔细地初始化层之间的连接（输入 ->隐层、隐层 ->隐层、输出 -> 隐层），使隐状态具有弱耦合振荡储存能力，可以被输入选择性地驱动。

使用动量进行初始化：像回声状态网络一样初始化，然后使用动量来学习所有的连接参数。

4 - 长程短期记忆网络

Hochreiter和Schmidhuber（1997）的论文通过构建长程短期记忆（LSTM：Long Short Term Memory）网络，解决了RNN长时间记忆（如数百个时间步）的问题。他们使用相互作用的逻辑单元和线性单元来设计专门的存储细胞（Memory Cell）。每当“写入”门打开时，信息就可以进入存储细胞。只要其“保持”门处于开启状态，信息就一直保持在存储细胞中。开启“读取”门就可以从细胞中读取信息：

手写草书识别是特别适合RNN的任务。输入可以采用笔尖的坐标（x，y，p）序列，其中p表示笔是向上还是向下。输出是一个字符序列。 Graves和Schmidhuber（2009）的论文表明，使用LSTM的RNN是目前草书识别的最佳系统。不过，他们使用小图序列而不是笔坐标序列作为输入。

还有四种，明天继续…

如果你喜欢这篇文章，记得关注我的头条号：新缸中之脑！

原文：The 8 Neural Network Architectures Machine Learning Researchers Need to Learn

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航