学习笔记CB003:分块、标记、关系抽取、文法特征结构
2018-02-14 14:18
274 查看
分块,根据句子的词和词性,按照规则组织合分块,分块代表实体。常见实体,组织、人员、地点、日期、时间。名词短语分块(NP-chunking),通过词性标记、规则识别,通过机器学习方法识别。介词短语(PP)、动词短语(VP)、句子(S)。
分块标记,IOB标记,I(inside,内部)、O(outside,外部)、B(begin,开始)。树结构存储分块。多级分块,多重分块方法。级联分块。
关系抽取,找出实体间关系。实体识别认知事物,关系识别掌握真相。三元组(X,a,Y),X、Y实体,a表达关系字符串。通过正则识别。from nltk.corpus import conll2000,print(conll2000.chunked_sents(‘train.txt’)[99]) 。
文法,潜在无限句子集合紧凑特性。形式化模型,覆盖所有结构句子。符合多种文法句子有歧义。只能用特征方法处理。
文法特征结构,单词最后字母、词性标签、文法类别、正字拼写、指示物、关系、施事角色、受事角色。文法特征是键值对,特征结构存储形式是字典。句法协议、属性、约束、术语。import nltk,fs1 = nltk.FeatStruct(TENSE=’past’, NUM=’sg’) ,fs2 = nltk.FeatStruct(POS=’N’, AGR=fs1) 。nltk产生式文法描述 /nltk_data/grammars/book_grammars 。sql0.fcfg,查找国家城市sql语句文法:
加载文法描述
参考资料:
《Python 自然语言处理》
http://www.shareditor.com/blogshow?blogId=70
http://www.shareditor.com/blogshow?blogId=71
欢迎推荐上海机器学习工作机会,我的微信:qingxingfengzi
分块标记,IOB标记,I(inside,内部)、O(outside,外部)、B(begin,开始)。树结构存储分块。多级分块,多重分块方法。级联分块。
关系抽取,找出实体间关系。实体识别认知事物,关系识别掌握真相。三元组(X,a,Y),X、Y实体,a表达关系字符串。通过正则识别。from nltk.corpus import conll2000,print(conll2000.chunked_sents(‘train.txt’)[99]) 。
文法,潜在无限句子集合紧凑特性。形式化模型,覆盖所有结构句子。符合多种文法句子有歧义。只能用特征方法处理。
文法特征结构,单词最后字母、词性标签、文法类别、正字拼写、指示物、关系、施事角色、受事角色。文法特征是键值对,特征结构存储形式是字典。句法协议、属性、约束、术语。import nltk,fs1 = nltk.FeatStruct(TENSE=’past’, NUM=’sg’) ,fs2 = nltk.FeatStruct(POS=’N’, AGR=fs1) 。nltk产生式文法描述 /nltk_data/grammars/book_grammars 。sql0.fcfg,查找国家城市sql语句文法:
% start S S[SEM=(?np + WHERE + ?vp)] -> NP[SEM=?np] VP[SEM=?vp] VP[SEM=(?v + ?pp)] -> IV[SEM=?v] PP[SEM=?pp] VP[SEM=(?v + ?ap)] -> IV[SEM=?v] AP[SEM=?ap] NP[SEM=(?det + ?n)] -> Det[SEM=?det] N[SEM=?n] PP[SEM=(?p + ?np)] -> P[SEM=?p] NP[SEM=?np] AP[SEM=?pp] -> A[SEM=?a] PP[SEM=?pp] NP[SEM='Country="greece"'] -> 'Greece' NP[SEM='Country="china"'] -> 'China' Det[SEM='SELECT'] -> 'Which' | 'What' N[SEM='City FROM city_table'] -> 'cities' IV[SEM=''] -> 'are' A[SEM=''] -> 'located' P[SEM=''] -> 'in'
加载文法描述
import nltk from nltk import load_parser cp = load_parser('grammars/book_grammars/sql0.fcfg') query = 'What cities are located in China' tokens = query.split() for tree in cp.parse(tokens): print(tree)
参考资料:
《Python 自然语言处理》
http://www.shareditor.com/blogshow?blogId=70
http://www.shareditor.com/blogshow?blogId=71
欢迎推荐上海机器学习工作机会,我的微信:qingxingfengzi
相关文章推荐
- 学习笔记CB003:分块、标记、关系抽取、文法特征结构
- 2018-3-6 (论文—网络评论中非结构信息应用于研究)笔记-----论文中的特征抽取的模型算法
- 【语言处理与Python】9.2处理特征结构\9.3扩展基于特征的文法
- 基于stanford nlp(JAVA)实现关系抽取
- 关系数据库中存储树形结构
- Spark1.6.1 MLlib 特征抽取和变换
- 深度【文本分类】【关系抽取】模型中,如何读取并处理输出的训练文件(TXT格式)
- 证券市场的特征,结构和基本功能描述
- 特征抽取概述
- 浅谈特征选择和特征抽取
- 异常检测——无监督、高斯分布模型,需要带标记的样本数据,基本假设:特征符合高斯分布
- 神经网络在关系抽取中的应用
- IS-IS hello 包结构及邻接关系的建立
- 七、文法分析还是基于特征好啊
- 基于关系结构的轻量级工作流引擎
- hadoop 文件分块,block与split关系
- MongoDB学习笔记(四) 用MongoDB的文档结构描述数据关系
- 基于依存关系的空间关系抽取算法
- HIT LTP的使用及利用句法关系简单抽取示例
- 微软BI 之SSAS 系列 - 维度的优化,灌木丛属性关系,以及自然层次结构与非自然层次结构的概念