Python 设置系统默认编码以及其他编码问题大全
2013-03-31 13:19
381 查看
python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128),python没办法处理非ascii编码的,此时需要自己设置将python的默认编码,一般设置为utf8的编码格式。
查询系统默认编码可以在解释器中输入以下命令:
设置默认编码时使用:
可能会报AttributeError: 'module' object has no attribute 'setdefaultencoding'的错误,执行reload(sys),在执行以上命令就可以顺利通过。
此时在执行sys.getdefaultencoding()就会发现编码已经被设置为utf8的了,但是在解释器里修改的编码只能保证当次有效,在重启解释器后,会发现,编码又被重置为默认的ascii了,那么有没有办法一次性修改程序或系统的默认编码呢。
有2种方法设置python的默认编码:
一个解决的方案在程序中加入以下代码:
另一个方案是在python的Lib\site-packages文件夹下新建一个sitecustomize.py,内容为:
此时重启python解释器,执行sys.getdefaultencoding(),发现编码已经被设置为utf8的了,多次重启之后,效果相同,这是因为系统在python启动的时候,自行调用该文件,设置系统的默认编码,而不需要每次都手动的加上解决代码,属于一劳永逸的解决方法。
另外有一种解决方案是在程序中所有涉及到编码的地方,强制编码为utf8,即添加代码encode("utf8"),这种方法并不推荐使用,因为一旦少写一个地方,将会导致大量的错误报告,想自己把它调正确基本很难,尤其是当程序比较大的时候。
还有一点,就是在读取文本文件过程中,如果文本文件编码格式是ASNI的(就是windows默认的,用记事本打开文本文件,另存为->会发现编码格式),那没有什么问题,因为python的文件操作也是按照ASNI来的,ASNI也就是gbk格式,其实是一回事。如果你的文本文件是UTF-8编码的话,一定要显示的decode一下,如:
这样才可以,本人亲身体会。
为什么这个比较重要,因为现在写python代码一般会把系统默认格式设置为utf-8,这样的话当你需要将处理好的数据写入一个文本文档时,是没有任何问题的(windows记事本可以打开utf-8编码的文本)。写入的格式是utf-8。而如果需要读取一个utf-8文本(假设是以前通过本程序写入的),不显式的decode的话会出问题,因为你整个程序的工作环境都是utf-8的,而读取输入的却是gbk的,可以想象肯定达不到你的要求。必须显式地decode才可以,以上讲的怎样设置系统默认编码对这个读取是无效的。
总结:
python设置系统默认编码很重要,尤其是写python GUI的时候,我用python的tkinter写了个词典DictForGeeks,其中涉及到了很多中文编码问题,后来找到了正确的方法才解决。说明一个一个的强制编码很不可取,以及读取过程中显式decode的重要性。
注意:这里的编码是指python在处理时使用的编码,而不是通常说的在脚本开始处添加 #-*- coding: utf-8 -*-。
查询系统默认编码可以在解释器中输入以下命令:
import sys sys.getdefaultencoding()
设置默认编码时使用:
sys.setdefaultencoding('utf8')
可能会报AttributeError: 'module' object has no attribute 'setdefaultencoding'的错误,执行reload(sys),在执行以上命令就可以顺利通过。
此时在执行sys.getdefaultencoding()就会发现编码已经被设置为utf8的了,但是在解释器里修改的编码只能保证当次有效,在重启解释器后,会发现,编码又被重置为默认的ascii了,那么有没有办法一次性修改程序或系统的默认编码呢。
有2种方法设置python的默认编码:
一个解决的方案在程序中加入以下代码:
import sys reload(sys) sys.setdefaultencoding('utf8')
另一个方案是在python的Lib\site-packages文件夹下新建一个sitecustomize.py,内容为:
# encoding=utf8 import sys reload(sys) sys.setdefaultencoding('utf8')
此时重启python解释器,执行sys.getdefaultencoding(),发现编码已经被设置为utf8的了,多次重启之后,效果相同,这是因为系统在python启动的时候,自行调用该文件,设置系统的默认编码,而不需要每次都手动的加上解决代码,属于一劳永逸的解决方法。
另外有一种解决方案是在程序中所有涉及到编码的地方,强制编码为utf8,即添加代码encode("utf8"),这种方法并不推荐使用,因为一旦少写一个地方,将会导致大量的错误报告,想自己把它调正确基本很难,尤其是当程序比较大的时候。
还有一点,就是在读取文本文件过程中,如果文本文件编码格式是ASNI的(就是windows默认的,用记事本打开文本文件,另存为->会发现编码格式),那没有什么问题,因为python的文件操作也是按照ASNI来的,ASNI也就是gbk格式,其实是一回事。如果你的文本文件是UTF-8编码的话,一定要显示的decode一下,如:
for line in open(fname,'r').readlines(): line=line.strip().decode('utf-8')
这样才可以,本人亲身体会。
为什么这个比较重要,因为现在写python代码一般会把系统默认格式设置为utf-8,这样的话当你需要将处理好的数据写入一个文本文档时,是没有任何问题的(windows记事本可以打开utf-8编码的文本)。写入的格式是utf-8。而如果需要读取一个utf-8文本(假设是以前通过本程序写入的),不显式的decode的话会出问题,因为你整个程序的工作环境都是utf-8的,而读取输入的却是gbk的,可以想象肯定达不到你的要求。必须显式地decode才可以,以上讲的怎样设置系统默认编码对这个读取是无效的。
总结:
python设置系统默认编码很重要,尤其是写python GUI的时候,我用python的tkinter写了个词典DictForGeeks,其中涉及到了很多中文编码问题,后来找到了正确的方法才解决。说明一个一个的强制编码很不可取,以及读取过程中显式decode的重要性。
注意:这里的编码是指python在处理时使用的编码,而不是通常说的在脚本开始处添加 #-*- coding: utf-8 -*-。
相关文章推荐
- Python 设置系统默认编码以及其他编码问题大全
- Python 设置系统默认编码(常见问题汇总)
- Python 设置系统默认编码
- Python 设置系统默认编码
- Python 设置系统默认编码
- 解决Qt中文乱码以及汉字编码的问题(UTF-8/GBK)——ubuntu环境设置默认是utf-8,文件编码可使用Encodersoft批量转换
- Python 设置系统默认编码
- Python文件读取编码错误问题解决之(PyCharm开发工具默认设置的坑。。。)
- Python设置系统默认编码
- python在设置编码和写csv文件遇到的问题以及解决方案
- Python 设置系统默认编码 分类: python基础学习 2013-12-11 10:04 212人阅读 评论(0) 收藏
- Python 设置系统默认编码
- python2设置系统默认编码为utf-8
- Python 设置系统默认编码
- Python 设置系统默认编码
- python处理url中的中文编码,以及其他编码问题
- Python 设置系统默认编码
- Python 设置系统默认编码
- Python 设置系统默认编码
- 重置mysql Root用户密码及修改默认字符集一般就算设置了表的默认字符集为utf8并且通过UTF-8编码发送查询,你会发现存入数据库的仍然是乱码。问题就出在这个connection连接层上。 解决