您的位置：首页 > 理论基础 > 计算机网络

【Deep Learning】LSTM(Long Short-Term Memory)及变体

2017-07-18 10:26 232 查看

通过对RNN理解的基础上(具体可见：【Deep Learning】循环神经网络推导和实现)，可以进一步了解LSTM（LongShort-Term Memory，其出现的原因是为了解决RNN对长依赖的句子上表现不好的情况。其本质是通过合理的激活一些信息，避免距离成为信息强度的决定性因素，目前LSTM除了原来的结构外，还衍生出了很多变体。

一、RNN与LSTM结构图

通过前一节我们知道RNN的结构图如下:

LSTM的一般结构：

可以观察到， LSTM和普通的RNN相比，多了几个门。在上图中，各个节点的具体说明如下所示：

二、设计思想

LSTM引入了一个门的概念，设计LSTM的目的就是要通过“门”来控制信息的传递，从而能够实现激活long-term的信息。其中一种简单的方式就是通过两个矩阵的点乘，即将两个大小完全一致的矩阵，对应位置相乘，那么如果存在一个矩阵的数值范围是[0,1]，点乘我们就可以理解为0是抑制对信息不放行，1是激活对信息放行。cell信息的位置就是水平的那条线，如下图所示：

对于上图中的每一个x表示的就是点乘，我们可以将其视为LSTM中的一个门，所以门的存在是为了阻止/放过信息的。

三、门介绍

①遗忘门，其控制cell的信息传递的，而控制cell的信息可以通过上一轮隐藏层的输出 ht−1和这一轮的输入xt决定，从名字上可以知道这个一个遗忘门，决定信息是否被记住或者是遗忘掉，所以激活函数为sigmoid，保证输出值为[0,1]，如下图：