您的位置:首页 > 其它

自然语言处理笔记7-哈工大 关毅

2019-01-13 11:02 106 查看

目录

文章目录

前言

硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。

句法分析技术1

基于规则+统计结合的句法分析
判定输入的词序列是否合法,短语结构树,有向无环图。
句子:{主『定语,中心』}{谓语『状,谓{动宾【动,宾语(定语,中心词)】,补语}』}

状语修饰,核心动作。

提高语法分析结果,计算机的语法分析里面不明确。
词性层级:两种句法分析的区别因子进入短语结合规则。
句法分析和短语结合分析进入区别。
语法歧义示例。
汉语句法分析,句法分析细语,形式语法体系。
匹配模式方法,“正则文法”。
短语结构文法,信息处理系统。机器翻译运用,留下此路不通的牌子。
科研有风险,不是一帆风顺,需要有挑战精神的人去做
扩充转移网络,状态转移机,树邻接语法

句法分析技术2

基于合一运算的语法,复杂描述集的语法,合一运算实现该方法,依存语法,上下文颗粒度太大,短语限定在词汇上,K+语法,依存文法,形式语法体系模式,正则匹配。
短语结构语法分析很多方法。
扩充转移网络
回顾:Chomsky文法体系
G=(N,∑,P,S)G=(N,\sum,P,S)G=(N,∑,P,S)是一个文法,
α−>β∈P\alpha->\beta\in Pα−>β∈P
0型文法:对α−>β不作任何限制\alpha->\beta 不作任何限制α−>β不作任何限制
I型文法:∣α∣≤∣β∣|\alpha|\leq|\beta|∣α∣≤∣β∣
II型文法:上下文无关文法,α∈N上下文无关文法,\alpha \in N上下文无关文法,α∈N
III型文法:正则文法。
一个字串的推导是一系列文化规则的应用。
起始符推导到最好。强范式:基于词的语法。
格里巴克:形式语言自动化机。
一种语言LgL_gLg​是由某上下文无关文法推导出来的所有终结符号串的集合,其中的每个终结符串,称为合乎文法G,否则,称之为不合乎文法。上下文文法,扩充概率无关文法。
一个随机上下文无关语法,PCFG的三个假设。
1)位置无关2)上下文无关3)祖先无关。
推出非总结串,隐码模型,推出问题。
PCFG的三个基本问题。
一个语句W=WiWi−1Wi−2WnW=W_iW_{i-1}W_{i-2}W_nW=Wi​Wi−1​Wi−2​Wn​的P(W|G)也就是产生语句W的概率?
在语句W的句法结构有歧义的情况下,如何快速选择最佳的语法分析(parse)?
如何从语料库中训练G的概率参数使得P(W|G)最大(类比之前的问题,评价,解码,编码问题)
节点间的递推关系,叶节点到根节点的句法树。

向内算法

句法分析技术3

随机上下文无关文法
任何一个语句都可以视为一种语言模型。
一个句法树中的结点词句法树开始推导,自顶向下,自下向上。
某一部推导,对应于几个规则,开始推导,做出结果。
登上算法,尝试去做,EM算法,优化前进,无指导学习算法,PCFG的优点。
可以对句法分析的歧义,结果进行概率排序。
提高文法的容错能力。
词对结构分析,上下文对结构分析,随机上下文无关文法。
向前算法,节点值增加提前。
αij(A)=P(Wi,Wj∣A),i&lt;j\alpha_{ij}(A)=P(W_i,W_j|A),i&lt;jαij​(A)=P(Wi​,Wj​∣A),i<j
=∑B,C,∈RP(Wi,Wj,B,Wr+1..Wj,C∣A)=\sum_{B,C,\in R}P(W_i,W_j,B,W_{r+1}..W_j,C|A)=B,C,∈R∑​P(Wi​,Wj​,B,Wr+1​..Wj​,C∣A)
αi,j=P(A−&gt;Wi)i=j\alpha_{i,j}=P(A-&gt;W_i)i=jαi,j​=P(A−>Wi​)i=j

句法分析技术4

浅层句法分析,形式合规分析,结构分析就行。
部分分析,组块分析。
例句:
这一切已经引起世界各国的普遍关注。
S-k,r,c,p.
浅层专项研究。
基于HMM的浅层分析技术,ACL会议。他识别的目标是非递归的NLP,浅层句法分析,隐码是五元组,浅层分析状态空间如何定义。输出一对词性标记,一个组块开始。
照着看,任何阶段都可以用任何一个模型,不同的是标记的内容。
级联式有限状态分析句法。
# 句法分析技术5
基于规则的方法,需要大量人力,不好迁移。
总结:
概率上下文无关文法,句法分析是目前语言处理技术瓶颈之一。发现问题比解决问题更重要。
句法分析是必由之路,ACL每年关注,语法分析。
强化学习技术:免疫机制分析合适吗?
句法是形式,语义是内容。
完整合法性,没有公认的内容。
句法的强制性和语义的决定性,句法系统和语义系统是两个不同的系统,它们各自独立而又相互依存,彼此的对应关系十分复杂,统计规则之后讲应用。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: