中文字符乱码问题简单解决 python
2016-05-05 15:42
447 查看
使用python2处理中文文本的时候,由于编码的问题,会出现乱码。
原因就是,python内部使用unicode进行字符的处理,但我们输入进去的字符编码可能是各式各样的。
因此需提前对输入文本进行decode操作。但是decode需要指定解码的类型比如,gbk,gb2312等,需要对文本进行判断。python中有内置模块可以查看chardet
然后根据查询的结果进行解码。
但遇到的问题就是,查询的结果是gb2312,但是解码还是出错。
这时我们要清楚一个问题,字符集的大小问题
这样,python中再遇到中文乱码问题时,可以通过字符集的大小进行实验。即:
原因就是,python内部使用unicode进行字符的处理,但我们输入进去的字符编码可能是各式各样的。
因此需提前对输入文本进行decode操作。但是decode需要指定解码的类型比如,gbk,gb2312等,需要对文本进行判断。python中有内置模块可以查看chardet
import chardet text = open(fileName,'r').read() print chardet.detect(text)
然后根据查询的结果进行解码。
但遇到的问题就是,查询的结果是gb2312,但是解码还是出错。
这时我们要清楚一个问题,字符集的大小问题
GB2312,GBK,GB18030,是兼容的,包含的字符个数,以此更多,可以写成: GB2312 < GBK < GB18030
这样,python中再遇到中文乱码问题时,可以通过字符集的大小进行实验。即:
1、设置gb2312为解码方式,如果解码失败; text = text.decode('gb2312') 2、设置gbk为解码方式,如果解码失败; text = text.decode('gbk') 3、设置gb18030为解码方式,如果失败; text = text.decode('gb18030') 4、此方法无效,请google其他方法。
注意
在最后写入文件时,一定要用encode进行编码操作。 text = text.encode('utf8')
相关文章推荐
- python使用mongo数据库
- UDPClient.py&UDPServer.py——我的第一行Python代码
- mininet python api
- Jupyter(IPython)
- 191. Number of 1 Bits [easy] (Python)
- PyCharm添加Python自定义模板
- 用Python制作简单的爬虫---爬虫基本思想
- 231. Power of Two [easy] (Python)
- python的学习笔记
- Python处理Excel(三):内置数据类型处理Excel数据
- python 中的赋值、引用、拷贝、作用域
- python第二站续--字典dict
- python代码结构
- python {File "<stdin>", line 1} error
- py2exe打包Python程序
- python2.7安装matplotlib的一些问题
- Visual Studio Build Events 使用脚本python
- python爬虫之-BeautifulSoup
- python---------列表和元组
- Python OpenCV中色彩空间的转换类型