您的位置:首页 > 其它

机器阅读理解综述:2019—Neural Machine Reading Comprehension_Methods and Trends

2020-07-14 06:30 197 查看

机器阅读理解综述:

2019—Neural Machine Reading Comprehension_Methods and Trends

1、主要内容
此论文对机器阅读理解的任务分类、数据集和主要模型做了分析。
任务:定义: 分类:
1.1Cloze Tests 完形填空

2.2 Multiple Choice 单项选择

2.3 Span Extraction 区间抽取

2.4 Free Answering 自由形式
一些示例:
A few examples of MRC datasets
该数据集由Hermann等人构建,是最有代表性的cloge风格的MRC数据集之一。CNN和Daily Mail,由CNN的9.3万篇文章和Daily Mail的22万篇文章组成,确实是大规模的,这使得在MRC中使用深度学习方法成为可能。
虑到要点摘要式的句子几乎没有重叠,文档,赫尔曼等人一个实体替换占位符的要点和评估机器阅读系统通过询问机器读取文件,然后预测哪些实体要点的占位符。
由于问题不是直接从文档中提出的,因此这项任务具有挑战性,一些信息提取方法无法处理它。这种创建MRC数据集的方法启发了许多其他的研究[83,55,74]。为了避免文档之外的知识可以回答问题的情况,文档中的所有实体都用随机标记来匿名化。
对比:从五个方面来评估
construction, understanding, flflexibility, evaluation and application.
任务构造数据集是否容易不是。越简单,分数越高。

construction 构造:这个维度度量为任务构造数据集是否容易。越简单,分数越高。
Understanding: 这个维度评估任务在多大程度上可以测试机器的理解能力。如果一项任务需要更多的理解和推理,分数就会更高。
Flexibility: 答案表单的灵活性可以度量任务的质量。当答案更灵活时,flflexibility分数更高。
Evaluation: 评估是MRC任务的必要组成部分。一项任务是否容易评估也决定了它的质量。在这种情况下,易于评价的任务得分较高。
Application:应用:一个好的任务应该是接近实际应用的。因此,如果一个任务可以很容易地应用到现实世界中,那么这个维度的分数就很高.
数据集是加速MRC领域发展的驱动因素之一,其中CNN、Daily Mail[23]、SQuAD[68]、MS MARCO[54]等可视为MRC的里程碑,推动了最新技术的出现。在这一部分中,我们将介绍每个MRC任务的几个代表性数据集,重点介绍如何根据任务需求构建大规模数据集,以及如何减少问题和上下文之间的词汇重叠。

一、Cloze Tests Datasets

1、CNN和Daily Mail 2015

2、CBT 2015.
他们收集了108本儿童书籍,每个样本中有21个连续的句子来自这些书中的章节。为了产生疑问,第21个句子中的一个词被删除,其他20个句子作为上下文。从上下文中随机选择9个与答案类型相同的错误单词作为备选答案。
与CNN的不同:
首先,与CNN和每日邮报不同的是,CBT数据集中的实体并不是匿名的,因此模型可以使用更广泛的背景知识。第二,在CNN和Daily Mail中缺少的条目仅限于命名实体,但是在CBT中有四种不同的类型:命名实体、名词、动词和介词。第三,CBT提供候选答案,在某种程度上简化了任务。
总的来说,随着CBT的出现,语境这一在人类理解过程中起着重要作用的词语受到了越来越多的关注。考虑到更多的数据可以显著提高神经网络模型的性能,Bajgar等人[3]引入了BookTest,将CBT数据集扩大了60倍,可以训练更大的模型。
3、LAMBADA 2016.
为了解释更广泛的背景意义,Paperno等人提出了基于话语方面(LAMBADA)数据集的语言建模方法。与CBT类似,
LAMBADA也用书籍作为资料来源,任务是单词预测。然而,在LAMBADA中需要预测的单词是目标句中的最后一个单词,而在CBT中,目标句中的任何一个单词都有可能成为目标。
此外,Paperno等发现,一些样本在CBT可以单独在目标句中猜测,而不是在更大的上下文中。为了克服这个缺点,在LAMBADA中有一个限制,使得很难预测目标词正确地使用目标句。也就是说,与CBT相比,LAMBADA需要对更广阔的背景有更多的理解。
4、Who-did-What 2016
为了更好地评估对自然语言的理解,研究人员在构建MRC数据集时尽量避免问题和文档之间的句子重叠。Onishi等人对如何减少句法相似性提供了新的见解。
在“Who-did-What”数据集中,每个示例由两个独立的文章组成;一个作为上下文,问题由另一个产生。这种方法可以用于其他语料库,其中的文章没有摘要点,不像CNN和每日邮报。Who-did-What还有一个特征,如名字所示;数据集只关注个人名称实体,这可能是它的局限性。
5、- CLOTH 2018
与上述自动生成的数据集相比,教师填空测试(CLOTH)[99]是人为创建的,收集自中国学生英语考试。布的问题是由中学和高中教师精心设计的,以检查学生的语言能力,包括词汇,推理,语法。有更少的无目的或琐碎的问题
因此,它要求对语言有深刻的理解。
6、- CliCR
为了解决特定领域的稀缺数据集问题,Suster等人[83]基于医疗和医学的临床病例报告构建了一个大规模的cloze式数据集。类似于CNN和每日邮报,。病例报告的摘要点被用来通过删除医疗实体来创建查询。CliCR将MRC推广到临床决策等实际应用中。

二、Multiple-Choice Datasets

MCTest 2013.
MCTest是Richardson等[70]提出的一个处于早期阶段的多选择MRC数据集。它由500个虚构的故事组成,每个故事有四个问题和四个备选答案。
选择虚构的故事可以避免引入外部知识,并且可以根据故事本身来回答问题。使用基于故事的语料库的想法启发了其他数据集,如CBT[24]和LAMBADA[59]。虽然MCTest的出现鼓励了对MRC的研究,但是它的尺寸太小,不适合一些需要大量数据的技术。

  • RACE 2017.

与CLOTH数据集[99]一样,RACE[36]也收集自中国中学生的英语考试。这个语料库允许更多种类的文章。
与整个数据集的固定样式不同,例如CNN和每日邮报[23]和的新闻NewsQA [86], CBT[24]和MCTest的虚构故事[70],几乎所有的文章都可以在RACE中找到。
作为一项多项选择题,RACE要求更多的推理,因为问题和答案都是人工生成的,基于信息检索或单词共现的简单方法可能表现不佳。此外,与MCTest[70]相比,RACE包含约28,000篇文章和100,000个问题,是大规模的,并且支持深度化模型的训练。前面提到的所有特性都说明了RACE是精心设计的,并且充满了挑战。

三、 Span Extraction Datasets

SQuAD 2016.
斯坦福大学Rajpurkar等[68]提出的Stanford question - answer Dataset (SQuAD)是MRC的一个里程碑。随着小队数据集的发布,一个基于它的MRC竞争已经引起了学术界和工业界的关注,这反过来又刺激了各种先进的MRC技术的发展。
收集536篇文章Wikipedia、Rajpurkar等人要求群众工作人员提出超过10万个问题,并从给定的文章中选择任意长度的跨度来回答问题。SQuAD不仅规模大,而且素质高。与以前的数据集相比,SQuAD定义了一种新的MRC任务,它不提供答案的选择,但是需要一个文本的跨度作为答案,而不是一个单词或一个实体。

  • NewsQA --2017.
    NewsQA[86]是另一个类似于SQuAD的span extraction dataset,其中的问题也是人工生成的,答案是相应文章的text span。NewsQA和SQuAD的明显区别在于文章的来源。在NewsQA中,文章是从CNN,而这个小组是基于维基百科。
    值得一提的是,有些问题NewsQA没有答案根据给定的上下文。这些无法回答的问题使它更接近现实,并促使Rajpurkar等人[67]将《SQuAD》更新到2.0版本。对于无法回答的问题,我们在5.2节进行了详细的介绍。

TriviaQA 2017.

TriviaQA[32]的构建过程将它与以前的数据集区分开来。在之前的工作中,群众工作者被给予文章,并提出与这些文章密切相关的问题。然而,这个过程导致了问题和证据的依赖来回答他们。此外,在人类的理解中,人们经常问一个问题,然后找到有用的资源来回答它。为了克服这个缺点,Joshi等人 从琐事和测验联盟网站收集问题-答案对。然后他们从网页和维基百科中寻找证据来回答问题。最后,他们为MRC任务构建了超过650,000个问题-答案-证据三元组。这种新的构建过程使得TriviaQA成为一个具有挑战性的测试平台,在问题和上下文之间具有相当大的语法可变性。
DuoRC 2018

Saha等[74]也在DuoRC中尝试减少问题和上下文之间的词汇重叠。就像在Who-did-What[55]中一样,DuoRC中的问题和答案是由对应于同一部电影的两个不同版本的文档创建的,一个来自Wikipedia,另一个来自IMDb。
提问和标注答案是由不同的群体工作人员完成的。这两个版本的电影情节之间的区别需要更多的理解和推理。此外,还有一些无法回答的问题。

四、 Free Answering Datasets

bAbI 2015
Weston等[97]提出的bAbI是一个著名的合成MRC数据集。它由20个任务组成,由一个模拟经典文本冒险游戏生成。每个任务独立于其他任务,测试文本理解的一个方面,如识别两个或三个论证关系,使用基本的演绎和归纳。
Weston等人认为处理所有这些任务是充分理解语言的先决条件。答案仅限于一个单词或一组单词,可能无法直接从原始上下文找到。bAbI数据集的发布促进了几种有前途的算法的发展,但是由于bAbI中的所有数据都是合成的,因此它与现实世界相差甚远。
MS MARCO
MARCO[54]女士可以被看作是MRC继班后的又一个里程碑[68]。为了克服以前数据集的缺点,它有四个主要的特点。首先,所有的问题都是从真实的用户查询中收集的。其次,对于每个问题,必应搜索引擎会搜索10个相关文档作为上下文。第三,这些问题的标记答案是由人类产生的,因此它们不局限于上下文的范围,需要更多的推理和总结。第四,每个问题都有多个答案,有时甚至会出现冲突,这让机器选择正确答案变得更具挑战性。女士
MARCO使MRC数据集更接近真实世界。

SearchQA 2017
SearchQA[20]的工作就像TriviaQA [32];两者都遵循回答问题的一般流程。为了构造SearchQA, Dunn等人从
J !存档,然后搜索与谷歌问题相关的片段。然而,SearchQA和TriviaQA的主要区别在于,在TriviaQA中,每个问答对都有一个文档,而在SearchQA中,每个问答对平均有49.6个相关的片段。

NarrativeQA 2018
Kovcisky等人发现,在以前的大多数数据集中,回答来自原始上下文的单个句子的问题时需要证据,因此他们设计了叙述质量保证(NarrativeQA)。基于书籍故事和电影剧本,他们从维基百科中搜索相关摘要,并要求同事根据这些摘要生成问答对。叙述式质量保证的特别之处在于,回答问题需要理解整个叙述,而不是肤浅的匹配信息。
DuReader 2018

与MARCO[54]女士类似,由He等人发布的DuReader是另一个来自真实世界应用的大型MRC数据集。DuReader中的问题和文档收集自百度搜索(搜索引擎)和百度之道(问答社区)。答案是人为产生的,而不是原始环境的跨度。DuReader的不同之处在于它提供了新的问题类型,比如yes/no和opinion。与事实性问题相比,这些问题有时需要对文档的多个部分进行总结,这为研究社区提供了机会。

评估指标:

对于不同的MRC任务,有不同的评估指标。要评估完形填空测试和多重选择任务,最常见的指标是准确性。在跨度提取方面,精确匹配(EM)、精度的变体和F1分数被计算来度量模型性能。考虑到免费应答任务的应答并不局限于原始上下文,所以ROUGE-L和BLEU被广泛使用。在接下来的部分中,我们将对这些评估指标进行详细的描述

  • Accuracy
    Exact Match
    精确匹配是准确性的一种变体,用于评估预测的回答范围是否与地面真值序列完全匹配。如果预测的答案等于黄金答案,则EM值为1,否则为0。也可以用上面的方程来计算。
    F1 Score

SQuAD 2.0[67]是一个具有代表性的MRC数据集,它的问题是无法回答的。基于2016年发布的前一个版本,《SQuAD 2.0》有超过5万个由群众工人创造的无法回答的问题。这些问题是不可能仅根据上下文来回答的,它们是具有挑战性的,因为它们与给定的上下文相关,并且有可能的回答范围与问题要求相匹配。为了在班长2.0中表现良好,模型不仅要对可回答的问题给出正确的答案,还要检测哪些问题没有答案。表12给出了一个在SQuAD 2.0中无法回答的问题的例子。在这一背景下,1937年条约的关键词存在,而《秃鹰保护法》是1940年条约的名称,而不是1937年,这是非常令人费解的。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐