Python爬虫:一些常用的爬虫技巧总结
2017-03-22 15:46
1036 查看
转载来源:开源中国 http://my.oschina.net/jhao104/blog/647308
用python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。
爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。
这是关键:创建Request对象,添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据
然后就是解压缩数据:
用python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。
爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。
1、基本抓取网页
get方法
import urllib2 url = "http://www.baidu.com" response = urllib2.urlopen(url) print response.read()
import urllib2 proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'}) opener = urllib2.build_opener(proxy) urllib2.install_opener(opener) response = urllib2.urlopen('http://www.baidu.com') print response.read()
cookie = "PHPSESSID=91rurfqm2329bopnosfu4fvmu7; kmsign=55d2c12c9b1e3; KMUID=b6Ejc1XSwPq9o756AxnBAg=" request.add_header("Cookie", cookie)
import urllib2, httplib request = urllib2.Request('http://xxxx.com') request.add_header('Accept-encoding', 'gzip') 1 opener = urllib2.build_opener() f = opener.open(request)
这是关键:创建Request对象,添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据
然后就是解压缩数据:
import StringIO import gzip compresseddata = f.read() compressedstream = StringIO.StringIO(compresseddata) gzipper = gzip.GzipFile(fileobj=compressedstream) print gzipper.read()
相关文章推荐
- Python爬虫:一些常用的爬虫技巧总结
- Python爬虫:一些常用的爬虫技巧总结
- Python爬虫:一些常用的爬虫技巧总结
- 一些常用的python爬虫技巧总结
- Python之一些常用的爬虫技巧总结
- Python爬虫:一些常用的爬虫技巧总结(IP,cookie,header,多线程)
- Python爬虫:一些常用的爬虫技巧总结
- 一些常用的python爬虫技巧总结【文末彩蛋福利】
- 用python爬虫抓站的一些技巧总结---进阶
- 【转帖】使用python爬虫抓站的一些技巧总结:进阶篇
- 用python爬虫抓站的一些技巧总结 zz
- 用python爬虫抓站的一些技巧总结
- 用python爬虫抓站的一些技巧总结
- 用python爬虫抓站的一些技巧总结
- 用python爬虫抓站的一些技巧总结
- 用python爬虫抓站的一些技巧总结
- 用python爬虫抓站的一些技巧总结
- 用python爬虫抓站的一些技巧总结
- 转载:用python爬虫抓站的一些技巧总结
- 用python爬虫抓站的一些技巧总结 zz