您的位置:首页 > 编程语言 > Python开发

Python2.7:UnicodeDecodeError :'gb2312' codec can't decode bytes:illegal multibyte sequence

2017-11-16 00:00 567 查看
Python版本:2.7
IDE:Pycharm2017

报错原因:爬虫一些古老的页面时,解码编码为UTF-8时发生乱码情况,使用GB2312解码进行UTF-8编码时爆发异常,无法完成编码。查询页面原始编码还恰好为GB2312。一头雾水之下开始百度,发现页面中如果少量包含GB2312之外的字符也是可以的,需要使用GB18030去解码,然后编码成UTF-8。具体代码如下:

string.decode('GB18030').encode('utf-8')
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Python
相关文章推荐