您的位置:首页 > 编程语言 > Python开发

中文字符乱码问题简单解决 python

2016-05-05 15:42 447 查看
使用python2处理中文文本的时候,由于编码的问题,会出现乱码。

原因就是,python内部使用unicode进行字符的处理,但我们输入进去的字符编码可能是各式各样的。

因此需提前对输入文本进行decode操作。但是decode需要指定解码的类型比如,gbk,gb2312等,需要对文本进行判断。python中有内置模块可以查看chardet

import chardet

text = open(fileName,'r').read()

print chardet.detect(text)


然后根据查询的结果进行解码。

但遇到的问题就是,查询的结果是gb2312,但是解码还是出错。

这时我们要清楚一个问题,字符集的大小问题

GB2312,GBK,GB18030,是兼容的,包含的字符个数,以此更多,可以写成:

GB2312 < GBK < GB18030


这样,python中再遇到中文乱码问题时,可以通过字符集的大小进行实验。即:

1、设置gb2312为解码方式,如果解码失败;
text = text.decode('gb2312')
2、设置gbk为解码方式,如果解码失败;
text = text.decode('gbk')
3、设置gb18030为解码方式,如果失败;
text = text.decode('gb18030')
4、此方法无效,请google其他方法。


注意

在最后写入文件时,一定要用encode进行编码操作。
text = text.encode('utf8')
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: