python3的requests抓取中文页面出现乱码
2016-05-12 14:20
633 查看
最近在用python2到python3的过渡的问题,然后使用过程中能免遇到不适应,就在使用requests抓取页面时就出现问题了,问题如下,就是抓取的页面使用xpath如何的去解析都遇到一堆的乱码的问题,然后这个问题也困扰了自己差不多有些时间:
**查找到是如下原因:
原理:**
requests 是一个python的http请求类库,基于urllib3,但支持更多的特性以及更人性化的API。
最近用requests抓取一个中文gb2312编码的页面时,整个页面的中文都乱码了。
基本上乱码就肯定是编码了,首先想到了是不是requests识别编码的时候识别错了,转到其它编码去了。
于是加上调试,打印出来
搜索了一下相关的说明,发现 requests 只会简单地从服务器返回的响应头的
requests 内部的 utils 提供了一个从返回 body 获取页面编码的函数,get_encodings_from_content,这样如果服务器返回的头不含 Charset,再通过
知道了原因,解决就容易了,一个方法是写一个 patch 将
而另一个办法就是先用 ISO-8859-1 再 encode 一次,再用获取的准确的 charset 去decode,这样省事了,不过肯定影响效率并且可能会有转换丢失。
代码:
上面的原理建议大家还是具体的了解下,这些并不能帮我们解决问题,但是能告诉我们问题是为什么出现了
这个问题出在就是解析网页编码出现问题了:
只要用requests进行如下如下处理:
显式地指定收到的网页编码为‘utf-8’
这样我们的问题得到解决了
但是在用的时候,我又不明白r.text与r.content的区别了
使用r.text
使用r.content:
那r.text与r.content有什么区别呢?
分析requests的源代码发现,r.text返回的是Unicode型的数据,
而使用r.content返回的是bytes型的数据。也就是说,在使用r.content的时候,他已经只带了
这样一个转化了。
若在使用的是r.text然后
报错可以进行如下处理:
这样的是相当于先给其转为bytes字节进行解析,然后我们在提取具体的中文字符时,我们再给其decode解析回来就好了~~
**查找到是如下原因:
原理:**
requests 是一个python的http请求类库,基于urllib3,但支持更多的特性以及更人性化的API。
最近用requests抓取一个中文gb2312编码的页面时,整个页面的中文都乱码了。
基本上乱码就肯定是编码了,首先想到了是不是requests识别编码的时候识别错了,转到其它编码去了。
于是加上调试,打印出来
response.encoding,发现居然是:
ISO-8859-1这个奇怪的编码。
搜索了一下相关的说明,发现 requests 只会简单地从服务器返回的响应头的
Content-Type去获取编码,如果有 Charset 才能正确识别编码,否则就使用默认的
ISO-8859-1,这样一来某些不规范的服务器返回就必然乱码了。
requests 内部的 utils 提供了一个从返回 body 获取页面编码的函数,get_encodings_from_content,这样如果服务器返回的头不含 Charset,再通过
get_encodings_from_content就可以知道页面的正确编码了。
知道了原因,解决就容易了,一个方法是写一个 patch 将
requests.models.Response.content打上补丁,而这明显比较麻烦。
而另一个办法就是先用 ISO-8859-1 再 encode 一次,再用获取的准确的 charset 去decode,这样省事了,不过肯定影响效率并且可能会有转换丢失。
代码:
response.text.encode('ISO-8859-1').decode(requests.utils.get_encodings_from_content(response.text)[0]) 。
上面的原理建议大家还是具体的了解下,这些并不能帮我们解决问题,但是能告诉我们问题是为什么出现了
这个问题出在就是解析网页编码出现问题了:
只要用requests进行如下如下处理:
显式地指定收到的网页编码为‘utf-8’
import requests url="https://www.baidu.com/" req =requests.get(url) req.encoding='utf-8' **#显式地指定网页编码,一般情况可以不用** print(req.text)
这样我们的问题得到解决了
但是在用的时候,我又不明白r.text与r.content的区别了
使用r.text
html = requests.get('xxxxxx',cookies=cookies).text
使用r.content:
html = requests.get('xxxxxx',cookies=cookies).content
那r.text与r.content有什么区别呢?
分析requests的源代码发现,r.text返回的是Unicode型的数据,
而使用r.content返回的是bytes型的数据。也就是说,在使用r.content的时候,他已经只带了
html = bytes(bytearray(html, encoding='utf-8'))
这样一个转化了。
若在使用的是r.text然后
selector = etree.HTML(html)
报错可以进行如下处理:
html = bytes(bytearray(html, encoding='utf-8')) selector = etree.HTML(html)
这样的是相当于先给其转为bytes字节进行解析,然后我们在提取具体的中文字符时,我们再给其decode解析回来就好了~~
相关文章推荐
- Python中的参数
- numpy学习笔记
- 《Python核心编程》 18.多线程编程(一)
- python3在用pip装lxml模块遇到的问题
- python中实现将普通字典dict转换为java中的treeMap
- Michael的Python笔记(二)
- python 学习笔记11(objgraph)
- python2.7 模块全局__metaclass__
- 用Python和OpenCV提取颜色直方图特征
- Python的词法分析与语法分析
- python的string模块中的Template
- python中的socket模块
- python中的socket模块
- 运维 -- Python
- python中的 json 模块使用
- python之permutations和combinations的区别
- python之permutations和combinations的区别
- leetcode(7),Contains Duplicate(python)
- error: could not create '/Library/Python/2.7/site-packages/jedi': Permission denied
- python 查看API