您的位置：首页 > 理论基础 > 计算机网络

Recurrent Neural Networks 循环神经网络

2016-08-21 09:21 387 查看

RNNs是很受欢迎的模型，在处理 NLP 任务方面很有前景。

结构

典型的RNN 全连接网络结构如下图所示：

右边是对左边的结构的简单描述。

进一步可以描述为：

在上图中，

xt 是在 t 时间序列时刻的输入，例如：x1可以是 one-hot 向量对应的句子的第二个词。

st 是隐藏层在时间步t的状态。是网络的记忆模块memory。

ot 是在时间步t 的输出。例如，想要预测句子中的下一个词，它的值将是字典中所有词的概率的向量。

根据上图流程，可知计算公式：

st=f(Uxt+Wst−1)

f一般为tanh，ReLU

ot=maxsoft(Vst)

注： RNN 的W,U,V参数都是相同的。

对于记忆模块 st，可以查看其记忆过程：

s1=f(Ux1+Ws0)

s2=f(Ux2+Ws1)=f(Ux2+Wf(Ux1+Ws0))

s3=f(Ux3+Ws2)=f(Ux3+Wf(Ux2+Wf(Ux1+Ws0)))

s4=f(Ux4+Ws3)=f(Ux4+Wf(Ux3+Wf(Ux2+Wf(Ux1+Ws0))))

假设 f(x)=x ，上式可以写为：

s4=f(Ux3+Ws3)=Ux4+WUx3+W2Ux2+W3Ux1+W4s0

依次类推，可以知道，时间序列中，越早的输入与隐藏层状态前的权值W的幂次越大。也就是说存在如下两种情况：

1， W<1（或者f′<1）, 随着 t越大，x0，s0等在前的序列的值越小，对 st的影响越小。对权值求导后，影响还是类似，这种情况被称为梯度消失问题。

2 ，W>1（或者f′>1），与上面情况相反，早先的序列值与状态对后面的影响越大。对权值求导后，影响还是类似，这种情况被称为梯度爆炸问题。

训练

跟传统的神经网络一样，使用方向传播算法进行训练。但是有一点不同，每一时间步的计算都会使用到前一步中的参数结果，如上式中所表示，这被称为Backpropagation Through Time (BPTT). 由于存在梯度消失／爆炸的问题，使用BPTT训练RNN 在学习长期依赖问题。目前存在一些方法来解决这个问题，看例如LSTM。

参考文章：

RNN

http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 神经网络

相关文章推荐

新的分享

章节导航