您的位置：首页 > 其它

B站动手学深度学习第十八课：seq2seq（编码器和解码器）和注意力机制

2019-07-11 22:53 471 查看

原文链接：http://www.cnblogs.com/caiyishuai/p/11173334.html

from mxnet import nd
h_forward = nd.array([1,2])
h_backward = nd.array([3,4])
h_bi = nd.concat(h_forward,h_backward,dim=0)
print(h_bi)

[1. 2. 3. 4.]
<NDArray 4 @cpu(0)>

不同时刻，C内h1,h2,h3所占的权重不同，权重是a。权重的求法用了softmax。e的求法和St-1和ht有关。

不同的注意力机制就是对a的设计不同。

原论文的e的取法如下图。

v，W是要学习的参数，有点像多层感知机。

转载于:https://www.cnblogs.com/caiyishuai/p/11173334.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航