python爬虫之cookies
2016-03-12 23:20
429 查看
cookies在web领域里面是一个很神奇的东西,它可以理解为你的密匙,
比如在新浪微博中你登录只有,会有记住密码这一个选项。当下次登录的时候,就不用输入对应的账号密码了,这是为啥?
这就是cookies的用处,它可以记住你的账号密码,不过记住的不是明文的账号密码,它是一段加密之后的数据段,
我们怎么获取cookies呢?
答案:抓包
每次我们点击登录按钮的时候,网站会提交一份包含账号密码,Host,Referer,User-Agent,等的一些信息,同时,生成一份cookies,通过抓包软件抓取发送的这条信息之后,我们就得到了直接连接sina.cn的钥匙。下次登入的时候,就直接把cookies发送过去就好了,
我这里使用的抓包软件是Fiddler,挺简洁的,
那么,我们抓到cookies之后怎么使用呢?
我们在前面介绍过两个库,requests个urllib2.HTTPCookieProcessor
requests有一个cookies函数,这个函数的具体功能可以在python shell里面输入如下查看他的信息
dir(requests.cookies)
填写这个变量之后,再get一次,就可以得到想要的html数据了。
至于cookies有时候是变动的这一条,你们可以自己去摸索,我在网上学习的sina.cn变动很简单,你们可以从这个下手
还有一个方法urllib2.HTTPCookieProcessor
这样添加进去了,只有只需要添加必要的header就可以直接urlopen了,
比如在新浪微博中你登录只有,会有记住密码这一个选项。当下次登录的时候,就不用输入对应的账号密码了,这是为啥?
这就是cookies的用处,它可以记住你的账号密码,不过记住的不是明文的账号密码,它是一段加密之后的数据段,
我们怎么获取cookies呢?
答案:抓包
每次我们点击登录按钮的时候,网站会提交一份包含账号密码,Host,Referer,User-Agent,等的一些信息,同时,生成一份cookies,通过抓包软件抓取发送的这条信息之后,我们就得到了直接连接sina.cn的钥匙。下次登入的时候,就直接把cookies发送过去就好了,
我这里使用的抓包软件是Fiddler,挺简洁的,
那么,我们抓到cookies之后怎么使用呢?
我们在前面介绍过两个库,requests个urllib2.HTTPCookieProcessor
requests有一个cookies函数,这个函数的具体功能可以在python shell里面输入如下查看他的信息
dir(requests.cookies)
填写这个变量之后,再get一次,就可以得到想要的html数据了。
至于cookies有时候是变动的这一条,你们可以自己去摸索,我在网上学习的sina.cn变动很简单,你们可以从这个下手
还有一个方法urllib2.HTTPCookieProcessor
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj)) urllib2.install_opener(opener)
这样添加进去了,只有只需要添加必要的header就可以直接urlopen了,
相关文章推荐
- python tkinter界面中添加按钮的方法
- python爬虫之正则表达式
- Python 3 之 运算符重载详解
- Python2.X无换行无空格输出
- python2016-03-12
- python更新pip
- AdaBoost算法2(基于单层决策树)
- python爬虫抓取图片到本地
- Python的多线程和多进程模块对比测试
- ubuntu15.10下安装opencv2.4.9&python上调用opencv库
- python中的open的使用
- Python的urlopen的使用
- python学习笔记:python字符串
- AdaBoost算法1(基于单层决策树)
- [pyhton]python内建方法
- Python回顾与整理2:Python对象
- python eval
- Python中os模块
- python系统基础信息模块详解
- Python学习