【语言处理与Python】3.3使用Unicode进行文字处理
2013-05-24 16:10
387 查看
Unicode支持超过一百万种字符;
每个字符分配一个编号,成为编码点;在Python中,编码点写作\uXXXX的形式,其中XXXX是四位十六进制数;
每个字符分配一个编号,成为编码点;在Python中,编码点写作\uXXXX的形式,其中XXXX是四位十六进制数;
从文件中提取已编码文本
#得到一个文件的路径(知道这个文件的编码) path= nltk.data.find('corpora/unicode_samples/polish-lat2.txt') import codecs f=codecs.open(path,encoding=’latin2’) #从文件对象f读出的文本将以Unicode返回,如果想在终端查看,必须使用合适的编码对它进行编码;unicode_escape是一种虚拟的编码 for line in f: line=line.strip() print line.encode(‘unicode_escape’) Python中pring语句假设Unicode字符的默认编码是ASCII码 nacute=u’\u0144’ nacute_utf=nacute.encode(‘utf8’) print repr(nacute_utf)
在Python中使用本地编码
在文件的第一行或者第二行中包含字符串# -*- coding:utr-8 -*-
相关文章推荐
- Python自然语言处理学习笔记(19):3.3 使用Unicode进行文字处理
- 自然语言处理3.3——使用Unicode进行文字处理
- 001_020 Python 使用Unicode来处理国际化文本
- 【语言处理与Python】11.4使用XML\11.5使用Toolbox数据
- for in 循环在python3.3使用报错处理
- python使用pil进行图像处理(等比例压缩、裁剪)实例代码
- 使用python进行图像处理-调整图片大小
- 【语言处理与Python】5.3使用Python字典映射词及其属性
- 使用python进行图像处理
- Python-使用CSV模块进行文件处理
- 使用python对高光谱数据进行处理和分类
- 使用ajax来进行前后传送数据(django框架、Python语言)
- 本文介绍使用OpenCV-Python进行形态学处理
- 在Python中使用PIL模块对图片进行高斯模糊处理的教程
- 使用Python递归对文件进行相关处理
- Java语言如何进行异常处理,关键字分别如何使用
- 【语言处理与Python】3.4使用正则表达式检测词组搭配
- 【语言处理与Python】5.1使用词性标注器/5.2标注语料库
- python使用TensorFlow进行图像处理的方法
- 使用Python对EXCEL表格进行处理