您的位置:首页 > 编程语言 > Python开发

《Python自然语音处理》简要笔记

2018-02-28 15:14 225 查看
第一章 语言处理与Python

1.1 文本和词汇 基本讲了NLTK入门,concordance,similar,common_contexts,generate,标识符(所有单词计数len),类型(单词类型总数set),词汇多样性(单词平均词频)

1.2 将文本当做链表 其实就是将文本中的单词变成list中的元素

1.3 简单的统计 词频率,词语搭配(bigram,2-gram)red wine和the wine,计算其它东西,不同词长度的出现次数。

1.4 回到Python:决策与控制 python [] 嵌套等

1.5 自动理解自然语言 词意消歧,指代消解,自动生成语言,机器翻译,人机对话系统,文本的含义。

第二章 获得文本语料和词汇资源

2.1 获取文本语料库 基本是说NLTK的基本语料库,还有添加自己语料的教程

2.2 条件分布

(1)计算不同类型的文本,词语的频率,比如说News,和Romance类型中文本中哪些词用得多,使用conditionalFreqDist.

(2)使用双连词(bigram,2-gram)生成随机文本,计算出双连词频率后,给定一个单词,比如living ,然后给出紧跟单词 creature

2.3 更多关于Python:代码重用 讲了一下python编程

2.4 词典资源

(1)词汇表,停用词,可检查罕见词汇或者拼写错误单词

(2)发音词典,在NLTK中包括美国英语的CMU发音词典,每个单词都有其发音,可通过发音找押韵词

(3)比较词典,在NLTK中包含了多种语言的翻译关系,斯瓦迪士核心此列表swadesh

(4)词汇工具,Toolbox,Shoebox目前最流行的语言学家用来管理数据的工具,包含了各种语言词汇,词性,和其它语言翻译关系

2.5 WordNet

1.WordNet面向语义的英语词典,之所以命名有Net说明其具有层次结构,结构包含了同义词,上下级关系等,可用来查找同义词,语义相似度

第三章 处理原始文本

3.1 从网络和硬盘访问文本

(1)通过本地磁盘访问,进行切词

(2)通过url直接访问网页

(3)通过搜索引擎获取信息,比如搜索”the of”然后会出现啥东西,该结果就可以说是和”the of”相匹配

(4)可通过feedparser第三方库爬去博客信息

(5)PDF,Word这种二进制文件可以使用第三方库pypdf,pywin32

3.2 字符串:最底层处理 其实就是一些python字符串处理方法

3.3 使用Unicode进行文本处理

3.4 使用正则表达式检测词组搭配

3.5 正则表达式的有益应用 元音匹配,查找词干

3.6 规范化文本 词干提取器,词形归并

3.7 用正则表达式为文本分词

3.8 分割 断句,分词

3.9 格式化:从链表到字符串 一些字符串和链表的转换,格式化等等,可以采用textwrap模块进行格式化输出

第四章 编写结构化程序

整章都在介绍python编程基础

第五章 分类和标注词汇

5.1 使用磁性标注器

5.2 标注语料库

5.3 使用Python字典映射词及属性

5.4 自动标注(自动词性标注)

5.5 N-gram标注(在标注之前,考虑前N个词后再标记)

5.6 基于转换的标注

5.7 如何确定一个词的分类

第六章 学习分类文本

6.1 监督式分类

(1)NLTK有内置的分类算法

(2)探索上下文语境,根据上下文语境,将特征词的词性作为特征加进来

6.2 监督式分类举例

(1)句子分割

(2)识别对话行为类型

(3)识别文字蕴涵

6.3 评估

6.4 决策树

6.5 朴素贝叶斯分类器

6.6 最大熵分类器

6.7 为语言模式建模

第七章 从文本提取信息

7.1 信息提取

例子:给出一段文本,输出xxx公司及公司的位置

流程

断句(句子分割器)->分词(分词器)->(词性标注)->命名实体识别(分块技术)->确认关系

7.2 分块

7.3 开发和评估分块器

7.4 语言结构中的递归

7.5 命名实体识别

7.6 关系抽取

第八章 分析句子结构

未完待续
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息