您的位置：首页 > 编程语言 > Python开发

记录使用python时遇到的中文编码问题与解决方法

2017-03-03 22:13 931 查看

记录使用python时遇到的中文编码问题与解决方法

刚接触python时，师兄就教导我们在每个py文件的第一行要加上

# coding=utf-8

这句话啦

在一开始的处理时并没有遇到问题，可随着处理的东西越来越多，各种各样的问题就出现了，为了尽量避免这些问题首先是把Pycharm的编码统一了，如图

如果是处理获取到的网页源代码，不要偷懒，先看看源代码的编码，就像下图中的charset=一般来说就是它的编码了

如果网页源代码的编码和自己编译器的不同，会出现中文乱码，那么该怎么解决呢？假设网页源代码是GB2312而想要的是utf-8，则可以用这句代码

s.decode('GB2312').encode('utf-8')

因为字符串在Python内部的表示是unicode编码. 因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

可是！就是有些网页啊～口不对心，charset显示的编码和实际编码跟不一样，怪不得有UnicodeEncodeError[捂脸]

这时候就可以用下面的代码来查看字符串的真实编码，然后再decode和encode就好啦

import chardet

print chardet.detect(data) # data是未知编码的字符串

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

记录使用python时遇到的中文 编码问题与解决方法