您的位置：首页 > 编程语言 > Python开发

《Python自然语音处理》简要笔记

2018-02-28 15:14 225 查看

第一章语言处理与Python

1.1 文本和词汇基本讲了NLTK入门，concordance,similar,common_contexts,generate,标识符(所有单词计数len),类型（单词类型总数set），词汇多样性(单词平均词频)

1.2 将文本当做链表其实就是将文本中的单词变成list中的元素

1.3 简单的统计词频率，词语搭配(bigram,2-gram)red wine和the wine,计算其它东西，不同词长度的出现次数。

1.4 回到Python:决策与控制 python [] 嵌套等

1.5 自动理解自然语言词意消歧，指代消解，自动生成语言，机器翻译，人机对话系统，文本的含义。

第二章获得文本语料和词汇资源

2.1 获取文本语料库基本是说NLTK的基本语料库，还有添加自己语料的教程

2.2 条件分布

(1)计算不同类型的文本，词语的频率，比如说News，和Romance类型中文本中哪些词用得多，使用conditionalFreqDist.

(2)使用双连词(bigram,2-gram)生成随机文本，计算出双连词频率后，给定一个单词，比如living ,然后给出紧跟单词 creature

2.3 更多关于Python:代码重用讲了一下python编程

2.4 词典资源

(1)词汇表，停用词，可检查罕见词汇或者拼写错误单词

(2)发音词典，在NLTK中包括美国英语的CMU发音词典，每个单词都有其发音，可通过发音找押韵词

(3)比较词典，在NLTK中包含了多种语言的翻译关系，斯瓦迪士核心此列表swadesh

(4)词汇工具，Toolbox,Shoebox目前最流行的语言学家用来管理数据的工具，包含了各种语言词汇，词性，和其它语言翻译关系

2.5 WordNet

1.WordNet面向语义的英语词典，之所以命名有Net说明其具有层次结构，结构包含了同义词，上下级关系等，可用来查找同义词，语义相似度

第三章处理原始文本

3.1 从网络和硬盘访问文本

(1)通过本地磁盘访问，进行切词

(2)通过url直接访问网页

(3)通过搜索引擎获取信息，比如搜索”the of”然后会出现啥东西，该结果就可以说是和”the of”相匹配

(4)可通过feedparser第三方库爬去博客信息

(5)PDF,Word这种二进制文件可以使用第三方库pypdf,pywin32

3.2 字符串:最底层处理其实就是一些python字符串处理方法

3.3 使用Unicode进行文本处理

3.4 使用正则表达式检测词组搭配

3.5 正则表达式的有益应用元音匹配，查找词干

3.6 规范化文本词干提取器，词形归并

3.7 用正则表达式为文本分词

3.8 分割断句，分词

3.9 格式化:从链表到字符串一些字符串和链表的转换，格式化等等，可以采用textwrap模块进行格式化输出

第四章编写结构化程序

整章都在介绍python编程基础

第五章分类和标注词汇

5.1 使用磁性标注器

5.2 标注语料库

5.3 使用Python字典映射词及属性

5.4 自动标注(自动词性标注)

5.5 N-gram标注（在标注之前，考虑前N个词后再标记）

5.6 基于转换的标注

5.7 如何确定一个词的分类

第六章学习分类文本

6.1 监督式分类

(1)NLTK有内置的分类算法

(2)探索上下文语境，根据上下文语境，将特征词的词性作为特征加进来

6.2 监督式分类举例

(1)句子分割

(2)识别对话行为类型

(3)识别文字蕴涵

6.3 评估

6.4 决策树

6.5 朴素贝叶斯分类器

6.6 最大熵分类器

6.7 为语言模式建模

第七章从文本提取信息

7.1 信息提取

例子:给出一段文本，输出xxx公司及公司的位置

流程

断句(句子分割器)->分词(分词器)->(词性标注)->命名实体识别(分块技术)->确认关系

7.2 分块

7.3 开发和评估分块器

7.4 语言结构中的递归

7.5 命名实体识别

7.6 关系抽取

第八章分析句子结构

未完待续

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 自然语言处理 NLP 机器学习人工智能 NLTK

相关文章推荐

新的分享

章节导航