您的位置:首页 > 其它

nlp-形式语言与自动机-ch08-句法分析

2017-04-24 11:01 796 查看
1、(空)

2、(空)

3、句法分析(syntactic parsing)是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构(syntactic structure)或句子中词汇之间的依存关系。 一般来说,句法分析并不是一个自然语言处理任务的最终目标,但是,它往往是实现最终目标的重要环节,甚至是关键环节。 

4、句法分析分为句法结构分析(syntactic structure parsing)和依存关系分析(dependencyparsing)两种。

5、句法结构分析又可称为成分结构分析(constituent structure parsing)或短语结构分析(phrase structure parsing)。 

6、以获取整个句子的句法结构为目的的句法分析称为完全句法分析(full syntactic parsing)或者完全短语结构分析(full phrase structure parsing)(有时简称full parsing)。

7、而以获得局部成分(如基本名词短语(base NP))为目的的句法分析称为局部分析(partial parsing)或称浅层分析(shallow parsing)。

8、依存关系分析又称依存句法分析或依存结构分析,简称依存分析。

9、句法结构分析是指对输入的单词序列(一般为句子)判断其构成是否合乎给定的语法,分析出合乎语法的句子的句法结构。 

10、句法结构一般用树状数据结构表示,通常称为句法分析树(syntactic parsing tree),简称分析树(parsing tree)。 

11、完成这种分析过程的程序模块称为句法结构分析器(syntactic parser),通常简称为分析器(parser)。

12、句法结构分析的任务有三个:①判断输入的字符串是否属于某种语言;②消除输入句子中词法和结构等方面的歧义;③分析输入句子的内部结构,如成分构成、 上下文关系等。 

13、有时人们也将句法结构分析称为语言或句子识别。

14、词法歧义和结构歧义等各种类型的歧义在自然语言中普遍存在,而句法结构歧义的识别和消解是句法分析面临的主要困难。

15、构造一个句法分析器需要考虑两部分工作:一部分是语法的形式化表示和词条信息描述问题。 形式化的语法规则构成了规则库,词条信息(包括词性、 动词的配价和中心词信息等)由词典或相关词表提供,规则库与词典或相关词表构成了句法分析的知识库;另一部分工作是分析算法的设计。

16、语法形式化(grammar formalism)属于句法理论研究的范畴。 目前在自然语言处理中广泛使用的是上下文无关文法(CFG)和基于约束的文法(constraint-based grammar)的简单形式,后者又称为合一语法(unification grammar)。

17、常用的基于约束的语法有:功能合一语法(FUG)、树链接语法(TAG)、词汇功能语法(LFG)、广义的短语结构语法(GPSG)、中心短语驱动的短语结构语法(HPSG)。

18、简单地讲,句法结构分析方法可以分为基于规则的分析方法和基于统计的分析方法两大类。 

19、基于规则的句法结构分析方法的基本思路是,由人工组织语法规则,建立语法知识库,通过条件约束和检查来实现句法结构歧义的消除。

20、根据句法分析树形成方向的区别,人们通常将这些分析方法划分为三种类型:自顶向下(top-down)的分析方法、 自底向上(bottom-up)的分析方法和两者相结合的分析方法。

21、基于规则的句法结构分析方法的主要优点是,分析算法可以利用手工编写的语法规则分析出输入句子所有可能的句法结构;对于特定的领域和目的,利用手工编写的有针对性的规则能够较好地处理输入句子中的部分歧义和一些超语法(extra-grammatical)现象。

22、规则分析方法也存在一些缺陷:①对于一个中等长度的输入句子来说,要利用大覆盖度的语法规则分析出所有可能的句子结构是非常困难的,分析过程的复杂性往往使程序
无法实现;②即使能够分析出句子所有可能的结构,也难以在巨大的句法分析结果集合中实现有效的消歧,并选择出最有可能的分析结果;③手工编写的规则一般带有一定的主观性,对于实际应用系统来说,往往难以覆盖大领域的所有复杂语言;④手工编写规则本身是一件大工作量的复杂劳动,而且编写的规则对特定的领域有密切的相关性,不利于句法分析系统向其他领域移植。

23、目前研究较多的统计句法分析方法是语法驱动的(grammar-driven),其基本思想是由生成语法(generative grammar)定义被分析的语言及其分析出的类别,在训练数据中观察到的各种语言现象的分布以统计数据的方式与语法规则一起编码。 在句法分析的过程中,当遇到歧义情况时,统计数据用于对多种分析结果的排序或选择。

24、基于概率上下文无关文法(probabilistic (或stochastic)context-free grammar, PCFG或SCFG)的短语结构分析方法可以说是目前最成功的语法驱动的统计句法分析方。 该方法采用的模型主要包括词汇化的概率模型(lexicalized probabilistic model)和非词汇化的概率模型(unlexicalized probabilistic model)两种。

//2017/4/25

1、在给定PCFG G的情况下,快速计算句子W的概率P(W|G)有两种方法:内向算法(inside algorithm)和外向算法(outside algorithm)。

2、对于一个给定的句子W=w1w2…wn和文法G,选择该句子的最佳结构也就是选择句法结构树t使其具有最大概率,即求解argmaxtP(t|W,G)。 这一问题可以利用韦特比算法(Viterbi algorithm)求解。

3、PCFG的概率参数估计

对于给定的CFG G和句子W=w1w2…wn,如何调整G的概率参数,使句子W的概率最大。 解决这一问题的基本思路是采用EM迭代算法:给G的每个产生式随机地赋予一个概率值(满足归一化条件),得到文法G0。 然后,根据G0和训练数据(树库),可以计算出每条规则使用次数的期望值,用期望次数进行最大似然估计,得到语法G的新的参数值,新的语法记作G1。 循环执行该过程,G的概率参数将收敛于最大似然估计值。

4、基于PCFG的词汇化短语结构分析方法:

这种方法的基本思想是:对句法树中的每个非终结符都利用其中心词(及其词性)进行标注,每条CFG规则的概率都依据中心词信息进行估计。 

5、词汇化句法结构分析模型的提出有效地提升了基于PCFG的句法分析器的能力,获得了较高的句法分析性能。

6、一种带有隐含标记的上下文无关文法(PCFG with latent annotations,PCFG-LA),使得非终结符的细化过程可以自动进行:

7、由于基于PCFG的短语结构分析方法具有形式简洁和参数空间小等优点,而且,对于存在多个分析结构的句子具有一定的消歧能力,因此,在句法分析研究中颇受青睐。 但是,该模型仍存在子树评分不够准确、 概率参数估计复杂、 而且需要大规模标注树库等不足。

8、目前使用比较广泛的短语结构分析器性能评价方法是PARSEVAL。 在PARSEVAL评测方法中主要有以下三个基本评测指标:

1)标记正确率(labeled precision, LP):句法分析器输出结果中正确的短语个数所占的比例,也是分析结果中与标准分析树(答案)中的短语相匹配的个数占分析器输出结果中所有短语个数的比例。

2)标记召回率(labeled recall, LR):句法分析器输出结果中正确的短语个数占标准分析树中全部短语个数的比例。

3)交叉括号数(crossing brackets, CBs):一棵短语结构树中所包含的与标准分析树中边界相交叉的短语个数。 平均交叉括号数则是指测试集中平均每个句子的短语结构树中所包含的与标准分析树中边界相交叉的短语个数。

//2017/4/26

1、HP算法主要由三部分组成:①对包含“分割”标点的长句进行分割;②对分割后的各个子句分别进行句法分析(即第一级分析),分析得到的各个最大概率的子树根结点的词类或者短语类别标记作为第二级句法分析的输入;③通过第二遍分析找到各个子句或者短语之间的结构关系,从而获得最终整句的最大概率分析树。 其中,在第二级句法分析

之前,预先判断句子中是否存在并列成分短语,因此,需要加入一个并列成分探测和子树合并的模块。

2、长句分割

根据前面对标点符号的分类,用逗号、 分号和冒号三类分隔标记把长句分割为一系列子句片段。 需要注意的是,引号和破折号只具有语义上的作用,因此,在句法分析上可以看作是透明的。

3、第一级分析

在HP方法中对各个子句的分析采用图表分析算法(chart parsing)。 在第一级分析中,分析的原始输入为各个子句的词性序列,经线图分析算法分析后,利用维特比Viterbi)算法,求得每个子句最大概率的分析树。

4、子树合并

根据8.7.3节的讨论,由于逗号的特殊性,将其统一定义为“分割”标点可能会导致不适当的句子分割。 造成这种问题的主要原因是由于在汉语句子中并列的短语较长时,一些句子使用逗号来替代顿号作为分隔标记,而这些并列短语充当同一句子中的同一个成分。 由于在第一级的句法分析中,对逗号左右的句子成分已经进行了分析,获得了逗号附近

的句法结构信息,而这一步需要做的仅仅是判断逗号左右的成分是否为并列关系的结构完全相同的短语。

5、第二级分析

除了所用的文法规则和输入串不同以外,第二级分析所用的算法和第一级分析所用的算法相同,但两部分文法规则有部分重叠,可通过算法自动选择。在第一级分析中输入词性串是输入句子的各个词性构成的序列,而第二级分析的输入则分为两种情况:一种是当第一级分析的各个子树单元都能够获得最大的概率分析树时,第二级分析的输入即为各个分析树根结点的结构标记和分隔它们的标点符号;另一种情况是,当第一级分析的某些子句分析失败时,仍取分析失败的子句中原始词性序列和其他分析成功的子树的根结点标记一起作为第二级分析的输入串。第二级分析最终输出的结果是整个句子的最大概率句法分析树。

6、浅层句法分析也称部分句法分析(partialparsing)或语块划分(chunking),它与完全句法分析不同,完全句法分析要求通过一系列的分析过程,最终得到句子的完整句法分析树,而浅层句法分析只要求识别句子中某些结构相对简单的独立成分,例如:非递归的名词短语、 动词短语等,这些被识别出来的结构通常称为语块(chunk)。 

7、浅层句法分析将句法分析分解为两个子任务:①语块的识别和分析;②语块之间的依附关系分析。 其中,语块的识别和分析是主要任务。

8、由于名词短语在句子结构中具有举足轻重的作用,因此,目前的基本短语识别研究主要集中在基本名词短语的识别分析(base noun phrase chunking,base NP chunking)问题上。

9、。 为了研究这种分类问题,Ramshaw and Marcus (1995)给出了两种base NP表示方法:括号分隔法(the open/close bracketing)和IOB标注方法(IOB tagging)。 其中,括号分隔方法的基本思想是用方括号界定base NP的边界,方括号内部的词属于base NP,方括号外边的词不属于base NP。

10、WINNOW是解决二分问题的错误驱动的机器学习方法,该方法能从大量不相关的特征中快速学习[Littlestone,1988]。 WINNOW的稀疏网络(sparse network of WINNOWS,SNoW)〔 11〕 学习结构是一种多类分类器,专门用于处理特征识别领域的大规模学习任务。

11、我们有时不需要或者不仅仅需要知道整个句子的短语结构树,而且要知道句子中词与词之间的依存关系。 用词与词之间的依存关系来描述语言结构的框架称为依存语法(dependence grammar),又称从属关系语法(grammaire de dépendance)。

12、依存语法打破了这种主谓关系,认为“谓语”中的动词是一个句子的中心,其他成分与动词直接或间接地产生联系。

13、在依存语法理论中,“依存”就是指词与词之间支配与被支配的关系,这种关系不是对等的,而是有方向的。 处于支配地位的成分称为支配者(governor,regent,head),而处于被支配地位的成分称为从属者(modifier,subordinate,dependency)。

14、依存语法与短语结构语法(phrase structure grammar,PSG)相比最大的优势是它直接按照词语之间的依存关系工作,依存语法几乎不使用词性和短语类等句法语义范畴,没有Chomsky的形式化重写规则,几乎所有的语言知识都体现在词典中,是基于词语法理论的。

//2017/4/27

1、“依次读入”和“立即处理”的依存分析策略可以构造出一个确定性的句法分析器:句子中的某个词一旦建立了依附关系,在后续的分析中将不再改变。 这也是后面要介绍的确定性依存句法分析方法的思想基础。

2、早期的基于依存语法的句法分析方法主要就是以上类似CYK的动态规划算法、 基于约束满足的方法和确定性分析策略三种。 后来随着统计自然语言处理技术的兴起,出现了在形式化的依存语法体系中融入基于语料库统计知识的依存句法分析方法。

3、生成式依存分析方法、 判别式依存分析方法和确定性依存分析方法是数据驱动的统计依存分析中具有代表性的三种方法,其中生成式方法和判别式方法是按照传统的机器学习模型分类方式划分的,确定性分析方法与前两者的区别在于最优依存树的分解和决策方式。

4、生成式依存分析方法采用联合概率模型生成一系列依存句法树并赋予其概率分值,然后采用相关算法找到概率打分最高的分析结果作为最后输出。

5、确定性依存分析方法以特定的方向逐次取一个待分析的词,为每次输入的词产生一个单一的分析结果,直至序列的最后一个词。 这类算法在每一步的分析中都要根据当前分析状态做出决策(如判断其是否与前一个词发生依存关系),因此,这种方法又称决策式分析方法。

6、基于最大生成树的依存分析方法以整个句子为最优依存结构搜索的基本单位,而基于转换的决策式依存分析方法通过搜索当前最优分析动作来得到输入句子的最优依存树,决策的基本单位是当前格局中的焦点词对。 这两种方法分别采用了依存分析单位的两个极端。 

7、鉴萍等引入了一种处于整句和词之间的结构单元——依存层(dependency layer)的概念,通过依存层来建立依存句法分析模型。 

8、短语结构树可以被一一对应地转换成依存关系树,反之则不然。 将一棵短语结构树转换成依存关系树的方法可以通过如下三步实现:①定义中心词抽取规则,产生中心词表;②根据中心词表,为句法树中每个结点选择中心子结点;③同一层内将非中心子结点的中心词依存到中心子结点的中心词上,下一层的中心词依存到上一层的中心词上,从而得到相应的依存结构。 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  nlp 句法分析