您的位置:首页 > 产品设计 > UI/UE

问题生成(question-generation)论文汇总

2020-07-14 06:30 597 查看

1、综述:Recent Advances in Neural Question Generation-2019地址
2、其他论文:
论文1
题目:Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks-2018
论文地址
GIT代码实现
任务为输入段落和答案,输出生成问题

主要处理了在问题生成(Question Generation,QG)中,长文本(多为段落)在seq2seq模型中表现不佳的问题。长文本在生成高质量问题方面不可或缺。

问题:在问题生成(Question Generation,QG)中,长文本(多为段落)在seq2seq模型中表现不佳。段落和答案编码 双向RNN来进行encode,

针对文章级的问题生成效果一直不佳,本文基于Seq2Seq设计了gated self-attention和Maxout Pointer两个机制来提升文章级的问题生成效果,并首次超越了句子级的问题生成。

方法:本文主要提出了一个改进的seq2seq模型,加入了maxout pointer机制和gated self-attention encoder。在之后的研究中可以通过加入更多feature或者policy gradient等强化学习的方式提升模型性能。
编码阶段:
将词向量和这个词是否在answer中两个向量拼接起来作为答案标记。
门控自注意力机制主要解决以下问题:聚合段落信息嵌入(embed)段落内部的依赖关系,在每一时间步中优化P和A的嵌入表示。
段落和答案编码双向RNN来进行encode。用300维glove词向量+answer tag。输入双向LSTM 编码
2、解码阶段
用Attention得到一个新的decoder state;
Copy/pointer+ maxout指针机制在所有指标上都优于基本复制机制。
效果:
段落及首次高于句子集;

生成问题中重复单词输明显减少 相比于其他模型有明显提升。

实验部分:
torch和相关包下载:https://download.pytorch.org/whl/torch_stable.html
用开源的训练方法训练,测试squad数据生成效果不错。
用中文数据集CMRC和中文词向量进行模型训练,测试生成问题,效果不好。具体原因分析为,CMRC没有squad数据量大和全面,中文词向量文件没有英文词更全面;中英文在语法和结构处理上存在差异。如何提升效果,后续更新。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: