您的位置:首页 > 编程语言 > Python开发

python写的爬虫抓取到的网页是乱码解决

2013-03-26 11:11 429 查看
本文摘自黄老师的培训内容-点击查看
在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,怎么办?下面所说的都是针对python2.7如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码。#chardet 需要下载安装import chardet#抓取网页htmlhtml_1 = urllib2.urlopen(line,timeout=120).read()#print html_1mychar=chardet.detect(html_1)#print mycharbianma=mychar['encoding']if bianma == 'utf-8' or bianma == 'UTF-8': #html=html.decode('utf-8','ignore').encode('utf-8') html=html_1else : html =html_1.decode('gb2312','ignore').encode('utf-8')有以上处理,整个html就不会是乱码。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  爬虫 python 乱码解决