python-13:解决header的问题
2015-11-24 00:00
357 查看
前面我们已经讲了header是什么以及怎样用代码伪装header,现在来看看修改后的代码并看看运行结果
额......又出错了,W T F,妈蛋。爬虫太难写了我要去玩LOL
......
......
......
好了,大家好,我是217小月月坑,我又回来了
先来看看错误提示
TypeError: must be string or buffer, not dict
类型错误:必须是字符串或缓冲区数据,不能是字典
好的这又是一种错误类型,这种类型就叫"即使给了你错误信息也很难判断是什么错误"
关于对这种类型的错误我现在还找不出行之有效的方法,我是在百度的时候无意中看到,然后试了一下才成功的。
其实这个错误的原因是,urllib2.Request 中有很多个参数,如果你按照函数原型中的参数一一对应的传入值的话,程序就会自动识别你输入的参数,就比如:
你先定义了url、data、 headers、 origin_req_host、 unverifiable 这几个变量并赋给他们相应的值,然后依次传入就像这样:
因为你是严格按照函数原型里面的参数来传值的,参数的个数和顺序都是和函数原型一一对应的,所以程序可以识别这些参数,程序的运行不会报错,但是,你要是给参数换一下位置,
这样就会报错,第二个参数本来是data参数,它有自己的数据类型,而现在传入的headers参数的数据类型跟data的数据类型不一样,程序运行就会报错
像现在这样,我们只写入两个参数,而且还不是第一个和第二个参数,程序就不能够识别得到你传入的参数对应的是哪一个,现在报的错误是TypeError,是因为程序将headers当成是传给data这个参数的值,而,这两个参数的数据类型不一样,所以会报类型错误
解决的方法是:在传入时指明你传入的是哪一个参数的值
request = urllib2.Request(url,headers=headers)
或者是不传入到参数用None代替
request = urllib2.Request(url,None,headers)
我比较喜欢第一种写法,因为这样能很清楚的知道是哪个变量
如果按照上面的步骤来的话,你的程序看起来应该是这样子的:
#!/usr/bin/env python # -*- coding:UTF-8 -*- __author__ = '217小月月坑' import urllib2 url = 'http://www.qiushibaike.com/' user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:40.0) Gecko /20100101 Firefox/40.0' headers = {'User-Agent':user_agent} request = urllib2.Request(url,headers) response = urllib2.urlopen(request) print response.read()
额......又出错了,W T F,妈蛋。爬虫太难写了我要去玩LOL
......
......
......
好了,大家好,我是217小月月坑,我又回来了
先来看看错误提示
TypeError: must be string or buffer, not dict
类型错误:必须是字符串或缓冲区数据,不能是字典
好的这又是一种错误类型,这种类型就叫"即使给了你错误信息也很难判断是什么错误"
关于对这种类型的错误我现在还找不出行之有效的方法,我是在百度的时候无意中看到,然后试了一下才成功的。
其实这个错误的原因是,urllib2.Request 中有很多个参数,如果你按照函数原型中的参数一一对应的传入值的话,程序就会自动识别你输入的参数,就比如:
你先定义了url、data、 headers、 origin_req_host、 unverifiable 这几个变量并赋给他们相应的值,然后依次传入就像这样:
urllib2.Request(url, data, headers, origin_req_host, unverifiable)
因为你是严格按照函数原型里面的参数来传值的,参数的个数和顺序都是和函数原型一一对应的,所以程序可以识别这些参数,程序的运行不会报错,但是,你要是给参数换一下位置,
urllib2.Request(url, headers, data, origin_req_host, unverifiable)
这样就会报错,第二个参数本来是data参数,它有自己的数据类型,而现在传入的headers参数的数据类型跟data的数据类型不一样,程序运行就会报错
像现在这样,我们只写入两个参数,而且还不是第一个和第二个参数,程序就不能够识别得到你传入的参数对应的是哪一个,现在报的错误是TypeError,是因为程序将headers当成是传给data这个参数的值,而,这两个参数的数据类型不一样,所以会报类型错误
解决的方法是:在传入时指明你传入的是哪一个参数的值
request = urllib2.Request(url,headers=headers)
或者是不传入到参数用None代替
request = urllib2.Request(url,None,headers)
我比较喜欢第一种写法,因为这样能很清楚的知道是哪个变量
如果按照上面的步骤来的话,你的程序看起来应该是这样子的:
#!/usr/bin/env python # -*- coding:UTF-8 -*- __author__ = '217小月月坑' import urllib2 url = 'http://www.qiushibaike.com/' user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:40.0) Geck o/20100101 Firefox/40.0' headers = {'User-Agent':user_agent} request = urllib2.Request(url,headers=headers) response = urllib2.urlopen(request) print response.read()
相关文章推荐
- Python动态类型的学习---引用的理解
- Python3写爬虫(四)多线程实现数据爬取
- 垃圾邮件过滤器 python简单实现
- 下载并遍历 names.txt 文件,输出长度最长的回文人名。
- install and upgrade scrapy
- Scrapy的架构介绍
- Centos6 编译安装Python
- 使用Python生成Excel格式的图片
- 让Python文件也可以当bat文件运行
- [Python]推算数独
- 爬虫笔记
- Python中zip()函数用法举例
- Python中map()函数浅析
- Python将excel导入到mysql中
- Python在CAM软件Genesis2000中的应用
- 使用Shiboken为C++和Qt库创建Python绑定
- python默认值陷阱