您的位置:首页 > 编程语言 > Python开发

python3的requests抓取中文页面出现乱码

2016-05-12 14:20 633 查看
最近在用python2到python3的过渡的问题,然后使用过程中能免遇到不适应,就在使用requests抓取页面时就出现问题了,问题如下,就是抓取的页面使用xpath如何的去解析都遇到一堆的乱码的问题,然后这个问题也困扰了自己差不多有些时间:

**查找到是如下原因:

原理:**

requests 是一个python的http请求类库,基于urllib3,但支持更多的特性以及更人性化的API。

最近用requests抓取一个中文gb2312编码的页面时,整个页面的中文都乱码了。

基本上乱码就肯定是编码了,首先想到了是不是requests识别编码的时候识别错了,转到其它编码去了。

于是加上调试,打印出来
response.encoding
,发现居然是:
ISO-8859-1
这个奇怪的编码。

搜索了一下相关的说明,发现 requests 只会简单地从服务器返回的响应头的
Content-Type
去获取编码,如果有 Charset 才能正确识别编码,否则就使用默认的
ISO-8859-1
,这样一来某些不规范的服务器返回就必然乱码了。

requests 内部的 utils 提供了一个从返回 body 获取页面编码的函数,get_encodings_from_content,这样如果服务器返回的头不含 Charset,再通过
get_encodings_from_content
就可以知道页面的正确编码了。

知道了原因,解决就容易了,一个方法是写一个 patch 将
requests.models.Response.content
打上补丁,而这明显比较麻烦。

而另一个办法就是先用 ISO-8859-1 再 encode 一次,再用获取的准确的 charset 去decode,这样省事了,不过肯定影响效率并且可能会有转换丢失。

代码:

response.text.encode('ISO-8859-1').decode(requests.utils.get_encodings_from_content(response.text)[0]) 。


上面的原理建议大家还是具体的了解下,这些并不能帮我们解决问题,但是能告诉我们问题是为什么出现了

这个问题出在就是解析网页编码出现问题了:

只要用requests进行如下如下处理:

显式地指定收到的网页编码为‘utf-8’

import requests
url="https://www.baidu.com/"
req =requests.get(url)
req.encoding='utf-8' **#显式地指定网页编码,一般情况可以不用**
print(req.text)


这样我们的问题得到解决了

但是在用的时候,我又不明白r.text与r.content的区别了

使用r.text

html = requests.get('xxxxxx',cookies=cookies).text


使用r.content:

html = requests.get('xxxxxx',cookies=cookies).content


那r.text与r.content有什么区别呢?

分析requests的源代码发现,r.text返回的是Unicode型的数据

而使用r.content返回的是bytes型的数据。也就是说,在使用r.content的时候,他已经只带了

html = bytes(bytearray(html, encoding='utf-8'))


这样一个转化了。

若在使用的是r.text然后

selector = etree.HTML(html)


报错可以进行如下处理:

html = bytes(bytearray(html, encoding='utf-8'))
selector = etree.HTML(html)


这样的是相当于先给其转为bytes字节进行解析,然后我们在提取具体的中文字符时,我们再给其decode解析回来就好了~~
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: