python中文编码问题(decode('gbk').encode('utf-8')和decode('utf-8').encode('gbk')这对好基友)
2016-11-18 16:11
666 查看
想必每个Python新手都会遇到Python编码的问题,特别是使用到汉字的时候。UTF-8编码是比较通用的编码方式,它可以输出中文,而Python2中默认的编码方式一般是GBK,所以往往我们期望在console下输出汉字时都是乱码,或者当raw_input()输入汉字后,在后面操作中遇到问题的现象(在爬虫程序中尤为常见)。
而仔细观察,程序中解析出的汉字通常是:'\xe4\xb8\xad\xe5\x9b\xbd' 这种形式的(GBK编码),输出后就变成乱码了,所以应该先将其GBK解码,然后再UTF-8编码,然后再输出:
这样就能输出汉字了。
而在爬虫程序中手动输入一个汉字时通常要先对其UTF-8解码,然后再GBK编码:
这样在后面的操作中才能避免出错。
而仔细观察,程序中解析出的汉字通常是:'\xe4\xb8\xad\xe5\x9b\xbd' 这种形式的(GBK编码),输出后就变成乱码了,所以应该先将其GBK解码,然后再UTF-8编码,然后再输出:
decode('gbk').encode('utf-8')
这样就能输出汉字了。
而在爬虫程序中手动输入一个汉字时通常要先对其UTF-8解码,然后再GBK编码:
decode('utf-8').encode('gbk')
这样在后面的操作中才能避免出错。
相关文章推荐
- python中文的编码问题(使用decode('gbk').encode('utf-8')和decode('utf-8').encode('gbk'))
- python 处理中文文件时的编码问题,尤其是utf-8和gbk
- Python编码相关问题 Unicode UTF-8 encode() decode()
- python3 读中文txt文件提示 'gbk' codec can't decode byte 0x80 ...或 'gbk' codec can't encode character '\xX问题
- 字符编码和python使用encode,decode转换utf-8, gbk, gb2312的问题
- decodeURI解码,由URIEncoder.encode("","GBK")编码的中文,问题解决
- python新手必碰到的问题---encode与decode,中文乱码
- Python 中的编码转换 编码方案 中文解码 gbk , utf ,unicode
- python替换UTF-8编码文本中任意特殊字符,包括中文符号问题:大量文本,将其中的特殊字符用空
- [转]Python正则表达式中匹配GBK/UTF-8编码中文字符_绝冬之地_百度空间
- Python中GBK, UTF-8和Unicode的编码问题
- [转]python新手必碰到的问题---encode与decode,中文乱码
- Python中GBK, UTF-8和Unicode的编码问题
- python新手必碰到的问题---encode与decode,中文乱码
- j2ee中文编码问题的解决方法(ISO8859_1、GBK、UTF-8)
- 解决Qt中文乱码以及汉字编码的问题(UTF-8/GBK)——ubuntu环境设置默认是utf-8,文件编码可使用Encodersoft批量转换
- java和jsp中文编码问题的解决方法(ISO8859_1、GBK、UTF-8)
- 中文编码问题(Unicode UTF-8 GBK ...) .
- Python中GBK, UTF-8和Unicode的编码问题
- 8.python中字符串的编码和解码问题——decode/encode