自然语言处理笔记7-哈工大 关毅
目录
文章目录
前言
硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。
句法分析技术1
基于规则+统计结合的句法分析
判定输入的词序列是否合法,短语结构树,有向无环图。
句子:{主『定语,中心』}{谓语『状,谓{动宾【动,宾语(定语,中心词)】,补语}』}
状语修饰,核心动作。
提高语法分析结果,计算机的语法分析里面不明确。
词性层级:两种句法分析的区别因子进入短语结合规则。
句法分析和短语结合分析进入区别。
语法歧义示例。
汉语句法分析,句法分析细语,形式语法体系。
匹配模式方法,“正则文法”。
短语结构文法,信息处理系统。机器翻译运用,留下此路不通的牌子。
科研有风险,不是一帆风顺,需要有挑战精神的人去做。
扩充转移网络,状态转移机,树邻接语法
句法分析技术2
基于合一运算的语法,复杂描述集的语法,合一运算实现该方法,依存语法,上下文颗粒度太大,短语限定在词汇上,K+语法,依存文法,形式语法体系模式,正则匹配。
短语结构语法分析很多方法。
扩充转移网络
回顾:Chomsky文法体系
G=(N,∑,P,S)G=(N,\sum,P,S)G=(N,∑,P,S)是一个文法,
α−>β∈P\alpha->\beta\in Pα−>β∈P
0型文法:对α−>β不作任何限制\alpha->\beta 不作任何限制α−>β不作任何限制
I型文法:∣α∣≤∣β∣|\alpha|\leq|\beta|∣α∣≤∣β∣
II型文法:上下文无关文法,α∈N上下文无关文法,\alpha \in N上下文无关文法,α∈N
III型文法:正则文法。
一个字串的推导是一系列文化规则的应用。
起始符推导到最好。强范式:基于词的语法。
格里巴克:形式语言自动化机。
一种语言LgL_gLg是由某上下文无关文法推导出来的所有终结符号串的集合,其中的每个终结符串,称为合乎文法G,否则,称之为不合乎文法。上下文文法,扩充概率无关文法。
一个随机上下文无关语法,PCFG的三个假设。
1)位置无关2)上下文无关3)祖先无关。
推出非总结串,隐码模型,推出问题。
PCFG的三个基本问题。
一个语句W=WiWi−1Wi−2WnW=W_iW_{i-1}W_{i-2}W_nW=WiWi−1Wi−2Wn的P(W|G)也就是产生语句W的概率?
在语句W的句法结构有歧义的情况下,如何快速选择最佳的语法分析(parse)?
如何从语料库中训练G的概率参数使得P(W|G)最大(类比之前的问题,评价,解码,编码问题)
节点间的递推关系,叶节点到根节点的句法树。
向内算法
句法分析技术3
随机上下文无关文法
任何一个语句都可以视为一种语言模型。
一个句法树中的结点词句法树开始推导,自顶向下,自下向上。
某一部推导,对应于几个规则,开始推导,做出结果。
登上算法,尝试去做,EM算法,优化前进,无指导学习算法,PCFG的优点。
可以对句法分析的歧义,结果进行概率排序。
提高文法的容错能力。
词对结构分析,上下文对结构分析,随机上下文无关文法。
向前算法,节点值增加提前。
αij(A)=P(Wi,Wj∣A),i<j\alpha_{ij}(A)=P(W_i,W_j|A),i<jαij(A)=P(Wi,Wj∣A),i<j
=∑B,C,∈RP(Wi,Wj,B,Wr+1..Wj,C∣A)=\sum_{B,C,\in R}P(W_i,W_j,B,W_{r+1}..W_j,C|A)=B,C,∈R∑P(Wi,Wj,B,Wr+1..Wj,C∣A)
αi,j=P(A−>Wi)i=j\alpha_{i,j}=P(A->W_i)i=jαi,j=P(A−>Wi)i=j
句法分析技术4
浅层句法分析,形式合规分析,结构分析就行。
部分分析,组块分析。
例句:
这一切已经引起世界各国的普遍关注。
S-k,r,c,p.
浅层专项研究。
基于HMM的浅层分析技术,ACL会议。他识别的目标是非递归的NLP,浅层句法分析,隐码是五元组,浅层分析状态空间如何定义。输出一对词性标记,一个组块开始。
照着看,任何阶段都可以用任何一个模型,不同的是标记的内容。
级联式有限状态分析句法。
# 句法分析技术5
基于规则的方法,需要大量人力,不好迁移。
总结:
概率上下文无关文法,句法分析是目前语言处理技术瓶颈之一。发现问题比解决问题更重要。
句法分析是必由之路,ACL每年关注,语法分析。
强化学习技术:免疫机制分析合适吗?
句法是形式,语义是内容。
完整合法性,没有公认的内容。
句法的强制性和语义的决定性,句法系统和语义系统是两个不同的系统,它们各自独立而又相互依存,彼此的对应关系十分复杂,统计规则之后讲应用。
- 自然语言处理笔记9-哈工大 关毅
- 自然语言处理笔记8-哈工大 关毅
- 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第六章 markov模型
- 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第七章 句法分析技术
- 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第一章 自然语言处理概论
- 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第二章 数学基础与语言学基础
- 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第三章 汉语的分词与频度统计
- 自然语言处理学习笔记(003)
- Python调用哈工大语言云(LTP)API进行自然语言处理
- 深度学习在自然语言处理中的应用: 集智俱乐部活动笔记
- R语言下的自然语言处理学习笔记一
- Python中文自然语言处理-NLTK 学习笔记1 chapter1
- 自然语言处理学习笔记(004)
- 自然语言处理学习笔记
- 学习笔记TF059:自然语言处理、智能聊天机器人
- 自然语言处理_分词_停用词整理[哈工大、四川大学机器智能实验室停用词库、百度停用词库、中文停用词词表]
- 自然语言处理中n-gram模型学习笔记
- CS224n笔记1 自然语言处理与深度学习简介
- NLP自然语言处理学习笔记(二)Word2Vec
- 笔记-cs224n(基于深度学习的自然语言处理)