您的位置：首页 > 理论基础 > 计算机网络

论文：记忆网络之Gated End-to-End Memory Networks

2018-01-28 00:00 281 查看

本文是在End-To-End Memory Networks这篇论文的基础上做了一些修改。因为End-To-End Memory Networks在multi-fact QA、 positional reasoning、 dialog等领域的效果还不是很好，所以本文参考CV领域中HighWay Networks和Residual Networks涉及到的shortcut connections，引入Gated机制，以实现对memory的正则化，从而让模型可以动态的修改memory。
因为End-To-End Memory Networks已经很熟悉了，所以我们先来介绍一下Highway Networks的想法，其主要是在网络输出下一层之前引入了一个transform gate T和一个carry Gated C，以让网络学习什么、多少信息应该被传到下一层。我们假设本层网络的输出为：y=H(x)，那么就加入下面的映射函数：

往往我们会选择C = 1-T，所以上面的公式可以转化为：

而残差网络则可以视为是Highway网络的一种特例，因为其直接把T和C都当做I，所以就相当于y=H(x) + x。但是这里背后的原理我还没来得及搞明白，为什么这样就可以让更深的网络很容易就训练成功，等有时间再看看相关的论文学习下。然后我们来看一下如何将其融入到End-To-End Memory Networks中，由于其每个hop的功能都可以视为u'=H(u)，所以对应到上面的公式，u就相当于输入x，o就相当于输出y，所以代入上式得：

也就是修改一下原来模型中输出层的公式即可。然后参数W和b有全局和每个hop独立两种方式，后面实验结果证明，每个hop保持独立效果会比较好。论文的创新点倒不是很大，只不过是将两篇论文结合一下，但是看有实验效果好像还有挺大的提升。最终的模型架构图如下所示：

实验结果：本文所提出的模型不仅仅在bAbI数据集上取得了很好的效果，而且在dialog bAbI对话数据集上也取得了很好的效果。这个数据集应该会在后面的文章中进行介绍，这里就不赘述了。这里也贴上两张实验结果的图：

第二张图揭示得是MemNN与本文提出模型各个hop对每个句子的权重计算，可以看出本文的模型更加集中在最重要的那个句子上面，而MemNN则比较分散，也说明了本文模型效果更好。来源：PaperWeekly近期热文推荐 | 中文文本标注工具Chinese-Annotator 资源 | 2017年GitHub中Top 30开源机器学习项目
自然语言对话引擎（技术类）分享 | 由0到1走入Kaggle-入门指导 (长文、干货）常见文本相似度量方法总结干货|免费文本语料训练数据集
佛系二维码
千千万万的公众号中
能被你识别就是缘分

长按识别二维码关注我们

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航