python写的爬虫抓取到的网页是乱码解决
2013-03-26 11:11
429 查看
本文摘自黄老师的培训内容-点击查看
在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,怎么办?下面所说的都是针对python2.7如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码。#chardet 需要下载安装import chardet#抓取网页htmlhtml_1 = urllib2.urlopen(line,timeout=120).read()#print html_1mychar=chardet.detect(html_1)#print mycharbianma=mychar['encoding']if bianma == 'utf-8' or bianma == 'UTF-8': #html=html.decode('utf-8','ignore').encode('utf-8') html=html_1else : html =html_1.decode('gb2312','ignore').encode('utf-8')有以上处理,整个html就不会是乱码。
在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,怎么办?下面所说的都是针对python2.7如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码。#chardet 需要下载安装import chardet#抓取网页htmlhtml_1 = urllib2.urlopen(line,timeout=120).read()#print html_1mychar=chardet.detect(html_1)#print mycharbianma=mychar['encoding']if bianma == 'utf-8' or bianma == 'UTF-8': #html=html.decode('utf-8','ignore').encode('utf-8') html=html_1else : html =html_1.decode('gb2312','ignore').encode('utf-8')有以上处理,整个html就不会是乱码。
相关文章推荐
- python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
- 解决Python网页爬虫之中文乱码问题
- python 网页抓取中的中文乱码问题解决
- python 解决抓取网页中的中文显示乱码问题
- python 解决抓取网页中的中文显示乱码问题
- Python 网络爬虫 006 (编程) 解决下载(或叫:爬取)到的网页乱码问题
- Python 网络爬虫 006 (编程) 解决下载(或叫:爬取)到的网页乱码问题
- Windows下Python抓取网页中文乱码解决办法
- python抓取中文网页乱码通用解决方法
- Python+Requests安装及抓取网页源码中文乱码问题的解决
- Python写爬虫——抓取网页并解析HTML
- python2利用urllib2抓取中文网页乱码的问题
- python中requests爬去网页内容出现乱码问题解决方法介绍
- python 处理抓取网页乱码问题一招鲜
- 自学Python八 爬虫大坑之网页乱码
- Python爬虫之抓取豆瓣信息 全部网页显示
- python爬虫selenium+firefox抓取动态网页--表情包爬虫实战
- python抓取并保存html页面的乱码解决办法
- Python爬虫,用第三方库解决下载网页中文本的问题
- python--爬虫入门(八)体验HTMLParser解析网页,网页抓取解析整合练习