您的位置：首页 > 编程语言 > Python开发

python写的爬虫抓取到的网页是乱码解决

2013-03-26 11:11 429 查看

本文摘自黄老师的培训内容-点击查看
在开发自用爬虫过程中，有的网页是utf-8，有的是gb2312,有的是gbk，怎么办？下面所说的都是针对python2.7如果不加处理，采集到的都是乱码，解决的方法是将html处理成统一的utf-8编码。#chardet 需要下载安装import chardet#抓取网页htmlhtml_1 = urllib2.urlopen(line,timeout=120).read()#print html_1mychar=chardet.detect(html_1)#print mycharbianma=mychar['encoding']if bianma == 'utf-8' or bianma == 'UTF-8': #html=html.decode('utf-8','ignore').encode('utf-8') html=html_1else : html =html_1.decode('gb2312','ignore').encode('utf-8')有以上处理，整个html就不会是乱码。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 爬虫 python 乱码解决

相关文章推荐

新的分享

章节导航