【NLTK基础教程】02 何为文本歧义
2018-01-22 21:08
639 查看
文本歧义,书中的定义式从原生数据中获取一段机器可读的已经格式化文本之前所要做的所有预处理工作,以及所有繁复的任务。该过程涉及到数据再加工,文本清理,特定项处理,标识化处理,词干提取或词型还原以及停用词移除等操作。
好吧,书中将文本歧义定义为数据预处理这一些列工作,难到文本歧义不应该是一个文本,多个意思,从而有歧义这个意思吗?没搞懂(问号脸.jpg).如果是把文本歧义理解成通过一系列数据预处理工作,消除文本歧义,好吧,貌似说得通。那也不纠结那么多了,下面看一个例子,解析一个csv文件。
代码说明:
这几句代码整体上是没有什么问题的,这里只是提下csv的reader方法的参数:
①delimiter:一行中的分隔符
②quotechar:每个字段用的类型符号
这里就会涉及到处理文档类型的一般流程,具体见下图:
在大多数情况下,我们所遇到的这些数据中的某一个,而python中也有对于这些数据格式最常见的封装格式。通过该模块,我们可以使用各种不同的分离器和引用符等工具。
接下来,我们再来看一个json文件示例:
①json数据为:
②处理该字符串的解析代码如下:
好吧,这个就记录到这里吧!
好吧,书中将文本歧义定义为数据预处理这一些列工作,难到文本歧义不应该是一个文本,多个意思,从而有歧义这个意思吗?没搞懂(问号脸.jpg).如果是把文本歧义理解成通过一系列数据预处理工作,消除文本歧义,好吧,貌似说得通。那也不纠结那么多了,下面看一个例子,解析一个csv文件。
import csv with open('example.csv') as f: reader=csv.reader(f,delimiter=',',quotechar='"') for line in reader: print line[1]
代码说明:
这几句代码整体上是没有什么问题的,这里只是提下csv的reader方法的参数:
①delimiter:一行中的分隔符
②quotechar:每个字段用的类型符号
这里就会涉及到处理文档类型的一般流程,具体见下图:
在大多数情况下,我们所遇到的这些数据中的某一个,而python中也有对于这些数据格式最常见的封装格式。通过该模块,我们可以使用各种不同的分离器和引用符等工具。
接下来,我们再来看一个json文件示例:
①json数据为:
{ "array":[1,2,3,4], "boolean":True, "object":{ "a":"b" }, "string":"hello world" }
②处理该字符串的解析代码如下:
import json jsonfile=open("example.json") data=json.load(jsonfile) print(data['string'])
好吧,这个就记录到这里吧!
相关文章推荐
- 【NLTK基础教程】01-02 利用nltk统计词频
- 【NLTK基础教程】01-1 三种获取网页中有效文本的方法
- DuiVision开发教程(15)-DUI文本控制基础类
- 【GStreamer开发】GStreamer基础教程02——GStreamer概念
- css基础系列教程4:文本属性
- Python文本处理nltk基础
- Python入门教程完整版(懂中文就能学会)视频\02python基础\day05\189-字符串-05-判断数字的三个方法.py
- 02.风哥MySQL数据库入门必备Linux基础系列视频教程(MySQL零基础教程)
- [原创][PowerShell教程][02]PowerShell基础知识之一
- CSS教程-02-CSS语法基础
- PHP基础教程-02 搭建环境准备
- I002-黑马程序员_毕向东_Java基础视频教程第01天-02-Java的跨平台性
- [Selenium With C#基础教程] Lesson-02 Web元素定位
- Python 循序渐进教程系列 之基础02 基础数据类型
- GStreamer基础教程02——GStreamer概念
- Java基础教程 02
- GStreamer基础教程02——GStreamer概念
- Unity界面插件NGUI基础教程—转自V大(02)
- 【阅读】NLTK基础教程_用NLTK 和Python库构建机器学习应用 (2)
- python入门基础教程02 Python简介