您的位置:首页 > 编程语言 > Python开发

python-13:解决header的问题

2015-11-24 00:00 357 查看
前面我们已经讲了header是什么以及怎样用代码伪装header,现在来看看修改后的代码并看看运行结果

#!/usr/bin/env python
# -*- coding:UTF-8 -*-
__author__ = '217小月月坑'

import urllib2

url = 'http://www.qiushibaike.com/'
user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:40.0) Gecko
/20100101 Firefox/40.0'
headers = {'User-Agent':user_agent}
request = urllib2.Request(url,headers)
response = urllib2.urlopen(request)
print response.read()

额......又出错了,W T F,妈蛋。爬虫太难写了我要去玩LOL

......
......
......
好了,大家好,我是217小月月坑,我又回来了
先来看看错误提示



TypeError: must be string or buffer, not dict
类型错误:必须是字符串或缓冲区数据,不能是字典

好的这又是一种错误类型,这种类型就叫"即使给了你错误信息也很难判断是什么错误"
关于对这种类型的错误我现在还找不出行之有效的方法,我是在百度的时候无意中看到,然后试了一下才成功的。
其实这个错误的原因是,urllib2.Request 中有很多个参数,如果你按照函数原型中的参数一一对应的传入值的话,程序就会自动识别你输入的参数,就比如:
你先定义了url、data、 headers、 origin_req_host、 unverifiable 这几个变量并赋给他们相应的值,然后依次传入就像这样:

urllib2.Request(url, data, headers, origin_req_host, unverifiable)

因为你是严格按照函数原型里面的参数来传值的,参数的个数和顺序都是和函数原型一一对应的,所以程序可以识别这些参数,程序的运行不会报错,但是,你要是给参数换一下位置,

urllib2.Request(url, headers, data, origin_req_host, unverifiable)

这样就会报错,第二个参数本来是data参数,它有自己的数据类型,而现在传入的headers参数的数据类型跟data的数据类型不一样,程序运行就会报错
像现在这样,我们只写入两个参数,而且还不是第一个和第二个参数,程序就不能够识别得到你传入的参数对应的是哪一个,现在报的错误是TypeError,是因为程序将headers当成是传给data这个参数的值,而,这两个参数的数据类型不一样,所以会报类型错误

解决的方法是:在传入时指明你传入的是哪一个参数的值
request = urllib2.Request(url,headers=headers)

或者是不传入到参数用None代替
request = urllib2.Request(url,None,headers)

我比较喜欢第一种写法,因为这样能很清楚的知道是哪个变量

如果按照上面的步骤来的话,你的程序看起来应该是这样子的:

#!/usr/bin/env python
# -*- coding:UTF-8 -*-
__author__ = '217小月月坑'

import urllib2

url = 'http://www.qiushibaike.com/'
user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:40.0) Geck
o/20100101 Firefox/40.0'
headers = {'User-Agent':user_agent}
request = urllib2.Request(url,headers=headers)
response = urllib2.urlopen(request)
print response.read()
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 爬虫