您的位置:首页 > 编程语言 > Python开发

python爬虫之cookies

2016-03-12 23:20 429 查看
cookies在web领域里面是一个很神奇的东西,它可以理解为你的密匙,

比如在新浪微博中你登录只有,会有记住密码这一个选项。当下次登录的时候,就不用输入对应的账号密码了,这是为啥?

这就是cookies的用处,它可以记住你的账号密码,不过记住的不是明文的账号密码,它是一段加密之后的数据段,

我们怎么获取cookies呢?

答案:抓包

每次我们点击登录按钮的时候,网站会提交一份包含账号密码,Host,Referer,User-Agent,等的一些信息,同时,生成一份cookies,通过抓包软件抓取发送的这条信息之后,我们就得到了直接连接sina.cn的钥匙。下次登入的时候,就直接把cookies发送过去就好了,

我这里使用的抓包软件是Fiddler,挺简洁的,

那么,我们抓到cookies之后怎么使用呢?

我们在前面介绍过两个库,requests个urllib2.HTTPCookieProcessor

requests有一个cookies函数,这个函数的具体功能可以在python shell里面输入如下查看他的信息

dir(requests.cookies)

填写这个变量之后,再get一次,就可以得到想要的html数据了。

至于cookies有时候是变动的这一条,你们可以自己去摸索,我在网上学习的sina.cn变动很简单,你们可以从这个下手

还有一个方法urllib2.HTTPCookieProcessor

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)


这样添加进去了,只有只需要添加必要的header就可以直接urlopen了,
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: