您的位置：首页 > 产品设计 > UI/UE

问题生成（question-generation）论文汇总

2020-07-14 06:30 597 查看

1、综述：Recent Advances in Neural Question Generation-2019地址
2、其他论文：
论文1
题目：Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks-2018
论文地址
GIT代码实现
任务为输入段落和答案，输出生成问题

主要处理了在问题生成（Question Generation，QG）中，长文本（多为段落）在seq2seq模型中表现不佳的问题。长文本在生成高质量问题方面不可或缺。

问题：在问题生成（Question Generation，QG）中，长文本（多为段落）在seq2seq模型中表现不佳。段落和答案编码双向RNN来进行encode，

针对文章级的问题生成效果一直不佳，本文基于Seq2Seq设计了gated self-attention和Maxout Pointer两个机制来提升文章级的问题生成效果，并首次超越了句子级的问题生成。

方法：本文主要提出了一个改进的seq2seq模型，加入了maxout pointer机制和gated self-attention encoder。在之后的研究中可以通过加入更多feature或者policy gradient等强化学习的方式提升模型性能。
编码阶段：
将词向量和这个词是否在answer中两个向量拼接起来作为答案标记。
门控自注意力机制主要解决以下问题：聚合段落信息嵌入（embed）段落内部的依赖关系，在每一时间步中优化P和A的嵌入表示。
段落和答案编码双向RNN来进行encode。用300维glove词向量+answer tag。输入双向LSTM 编码
2、解码阶段
用Attention得到一个新的decoder state；
Copy/pointer+ maxout指针机制在所有指标上都优于基本复制机制。
效果：
段落及首次高于句子集；

生成问题中重复单词输明显减少相比于其他模型有明显提升。

实验部分：
torch和相关包下载：https://download.pytorch.org/whl/torch_stable.html
用开源的训练方法训练，测试squad数据生成效果不错。
用中文数据集CMRC和中文词向量进行模型训练，测试生成问题，效果不好。具体原因分析为，CMRC没有squad数据量大和全面，中文词向量文件没有英文词更全面；中英文在语法和结构处理上存在差异。如何提升效果，后续更新。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航