python学习-爬虫
2016-09-16 22:40
176 查看
转载自 静觅的博客
最普通下载网页
Post方式
设置headers
Get方式
设置代理
设置延时
异常处理
设置cookie
最普通下载网页
import urrlib2 response = urllib2.urlopen("http://www.baidu.com") print response.read()
Post方式
import urllib import urllib2 values = {"username":"*****", "password":"*****"} url = " " request = urllib2.Request(url,urllib.urlencode(values)) response = urllib2.urlopen(request) print response.read()
设置headers
import urllib import urllib2 url = 'http://www.server.com/login' user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' values = {'username' : 'cqc', 'password' : 'XXXX' } headers = { 'User-Agent' : user_agent } data = urllib.urlencode(values) request = urllib2.Request(url, data, headers) response = urllib2.urlopen(request) page = response.read()
Get方式
import urllib2 import urllib values = {} values["username"] = values["password"] = data = urlencode(values) url = geturl = url + "?" + data request = urllib2.Request(geturl) response = urllib2.urlopen(request) print response.read()
设置代理
import urllib2 enable_proxy = True proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'}) null_proxy_handler = urllib2.ProxyHandler({}) if enable_proxy: opener = urllib2.build_opener(proxy_handler) else: opener = urllib2.build_opener(null_proxy_handler) urllib2.install_opener(opener)
设置延时
import urllib2 response = urllib2.urlopen('http://www.baidu.com',data, 10)
异常处理
import urllib2 req = urllib2.Request('http://blog.csdn.net/cqcre') try: urllib2.urlopen(req) except urllib2.URLError, e: if hasattr(e,"code"): print e.code if hasattr(e,"reason"): print e.reason else: print "OK"
设置cookie
import urllib import urllib2 import cookielib filename = 'cookie.txt' #声明一个MozillaCookieJar对象实例来保存cookie,之后写入文件 cookie = cookielib.MozillaCookieJar(filename) opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) postdata = urllib.urlencode({ 'stuid':'201200131012', 'pwd':'23342321' }) #登录教务系统的URL loginUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login' #模拟登录,并把cookie保存到变量 result = opener.open(loginUrl,postdata) #保存cookie到cookie.txt中 cookie.save(ignore_discard=True, ignore_expires=True) #利用cookie请求访问另一个网址,此网址是成绩查询网址 gradeUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre' #请求访问成绩查询网址 result = opener.open(gradeUrl) print result.read()
相关文章推荐
- Python爬虫学习
- python爬虫学习研究
- Python爬虫学习纪要(九):Requests 库学习笔记4
- 记录自己python爬虫的学习
- python爬虫学习记录之报错及解决方案
- Python爬虫学习(单线程爬虫(二))
- 【Python学习】Python写爬虫时用到的相对路径和绝对路径--urljoin
- 【python学习笔记】网络爬虫的完整源代码
- Python爬虫框架Scrapy 学习笔记 10.2 -------【实战】 抓取天猫某网店所有宝贝详情
- python爬虫程序相关学习
- Python学习笔记之爬虫
- [python爬虫] Selenium常见元素定位方法和操作的学习介绍
- python爬虫学习
- 学习Python爬虫记录
- python爬虫学习第三十天
- python爬虫基础学习-01
- Python学习笔记之网络爬虫
- Python爬虫学习(二)用到的数据结构
- python爬虫学习第十七天——我来还昨天的债了~
- python学习笔记(14)--爬虫下载漫画图片修改版