您的位置:首页 > 其它

NLP汉语自然语言处理原理与实践 6 句法理论与自动分析

2017-12-15 12:21 831 查看
最早的自然语言处理的研究工作就是机器翻译,它部分来源于政治需要。1949年,美国人威弗首先提出了机器翻译设计方案,直到20世纪60年代末进入低潮前,机器翻译都是NLP应用的主要领域,并且耗费了巨额费用。迄今为止,机器翻译的研究虽然取得了很大的进展,但是仍旧没有达到实用的程度。而句法分析又是机器翻译最核心的数据结构,因此多年来,句法研究是国际自然语言处理的重中之重。这是外因。

主要技术包括句法分析和语义解析。

有两种句法分析理论,分别为转换生成语法和依存句法。转换生成语法理论由乔姆斯基在20世纪50年代创立,滨州树库就是使用该规则。而依存句法是目前实际应用最多的一种句法理论。

6.1 转换生成语法

乔姆斯基的语言观:句子的集,每个句子在长度上是有限的,它由结构成分有限的集构成。---(Chomsky 1957, 《句法结构》)

具体语言的语法表现为一套有限的规则系统。这个系统由如下三个子系统构成:句法部分、音系部分和语义部分。

乔姆斯基认为语法是第一性的,而具体的语言则是派生性的,是由在语法基础上构成的无限多的具体句子所构成的集合。

语法规则都是从几条普遍原则转换而来的,因此称为转换生成语法。转换的步骤是有限的,而过程是递归的。

乔姆斯基于1957年后做了几年研究,到1965年便建立起一个完整的生成语法系统,包括语类、转换、音系和语义4个子系统,各子系统之间有一定的顺序关系。

乔姆斯基的理论形成了如下5个不同的历史阶段:古典理论阶段、标准理论时期、扩充标注理论时期、管辖和约束理论时期和最简方案时期。

短语结构文法:词汇、短语、小句和句子,逐层分析方法就是乔姆斯基对语言学最大的贡献,即短语结构文法。

可以形式化定义为G=(X,V,S,R)这样一个四元组

上下文无关文法:

两种最常用的句法树形式:短语结构文法和依存句法。句法树的最终目的是为了是机器能够正确、全面地理解和表达句义,从而转换为知识库所需的数据结构,达到存储知识、实现推理的目标。即便句法解析的精度达到工业级的要求,也需要一个从句法树直接转换为知识库所需的RDF的阶段。由于两种数据结构的差异性,目前转换工作仍旧处于实验阶段。

汉语句子分为三种类型:

简单句:一般主谓结构、”把“字结构、”被“字结构、致使结构

复合句:介词短语(PP)内部的小句、名词短语(NP)内部的小句、小句直接作为名词性短语、紧缩句:连动结构

复句:全局有多个主谓结构,是由多个简单句和简单复合单句构成的句群。

谓词论元与空范畴

配价理论认为在一个句子中,动词处于中心地位,动词的支配成分相当于传统语法的主语、直接宾语和间接宾语。配价中的价就是动词对句子中名词性成分的支配数量,也称为论元数量,不同支配数量的动词有不同的论元。

轻动词分析理论:90年代中期,轻动词假设被乔姆斯基吸收,他把轻动词视为及物性谓语的核心。

6.2 依存句法理论

依存句法是有法国语言学家泰斯尼耶尔最早提出的。同时,他也是配价理论的奠基人。这两个概念都出现在他的巨著《结构句法基础》之中。一开始,人们对依存句法普遍有一种误解,认为它是短语结构文法的一种补充。

Percival将依存关系分为两种:一种是句法依存,是指如果有两类元素,其中有一类元素只是在另一类出现时才会出现,那么就说前一类的元素在句法上依存于后一类元素;另一种是语义依存,是指某些词的出现只是为了限定其他词的意义。

这与单纯从语法角度来分析句子的转换生成语法有了很大的不同。依存句法的依存关系中可以同时容纳句子的语法结构和语义结构的两种关系。近些年,认知科学的累累硕果使人们逐渐将目光从语法转向语义层面,希望两种标注并存的句法新理论对提高句子的识别精度会带来质的飞跃。

配价理论:动词的配价是配价语法的主体内容。早期的配价语法只包括动词的配价,现在将配价理论发展到了其他类型的实词。配价的语法概念并不复杂,它揭开了通向认知语义的大门。人们后来发现,认知语言学中的主体---背景理论,以及由此发展而来的意象图式理论与其天然的联系。

在中国,语言学界引入配价语法理论的时间始于1978年。30多年来,汉语的语言学和计算语言学的研究者对其进行了充分的研究,除发表了数百篇论文之外,还建立了较大规模的配价词典库。配价语法作为依存句法的理论基础早已成为汉语计算语言学的基础理论之一。

配价词典:

最早德国的Helbig的语言词典是烦琐的。

北大配价词典http://ccl.pku.edu.cn/ccl_sem_dict/

依存理论概述:需要理解的关键概念在于依存。泰斯尼耶尔认为句子中各个成分之间都存在着支配与从属的关系。处于支配地位的词称为支配词(Head),也称为核心词;处于被支配地位的词称为从属词(Dependency),也称为修饰词。他认为,句子的结构表现为各个构成成分之间的层层递进的从属关系,它的顶端就成为一个支配所有成分的”中心结“(根节点)。”中心结“在绝大多数的情况下是动词,也就是说,动词是句子的中心。这种思想显然来自配价理论。

而句子各个成分之间的支配关系与被支配关系是单向的。因此,就很自然地构成了一颗以动词为中心的句法树。



一个句子同时具有句法和语义结构。理解一个句子意味着掌握组成句子结构的所有联系。因为句法结构必须反映语义结构,所以句法结构和语义结构是平行的。而且,如同句法结构一样,语义结构也是二维的。

Ltp依存分析介绍:自然语言研究会(Conference on Natural Language Learning, CoNLL)是由SIGNLL组织的年度会议,http://www.conll.org/


https://api.ltp-cloud.com/analysis/?api_key=YourApiKey&text=张三参加了这次会议。&pattern=all&format=conll
0	张三	_	_	nh	S-Nh	1	SBV	_	_	_	(A0*)
1	参加	_	_	v	O	-1	HED	_	_	参加	(v*)
2	了	_	_	u	O	1	RAD	_	_	_	*
3	这次	_	_	r	O	4	ATT	_	_	_	(A1*
4	会议	_	_	n	O	1	VOB	_	_	_	*)
5	。	_	_	wp	O	1	WP	_	_	_	*

stanford依存转换、解析

6.3 PCFG短语结构句法分析

在短语结构文法中,目前最成熟、精度最高的算法是PCFG算法 P298

在依存句法理论中,目前最新、最高效的是基于转换的LSTM算法,后面章节介绍
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: