您的位置:首页 > 编程语言 > Python开发

python爬虫

2016-06-20 17:59 411 查看
摘要: 糗百的热门段子抓取。利用python基本库urllib,urllib2,re实现

# -*- coding:utf-8 -*-
#仅仅实现逻辑,高级需求自行修改
#引入库
import urllib
import urllib2
import re
#抓取某页
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
# print response.read()
content = response.read().decode('utf-8','ignore')
pattern = re.compile('<div.*?class="author.*?</a>.*?<a.*?>(.*?)</a>.*?<div.*?class="content.*?>(.*?)<!--.*?-->.*?<div class="stats.*?class="number">(.*?)</i>',re.S)
items = re.findall(pattern,content)
for item in items:
print item[0],item[1],item[2]
except urllib2.URLError, e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason

urllib2库里面的urlopen方法,传入一个URL,协议是HTTP协议,当然你也可以把HTTP换做FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,urlopen一般接受三个参数,它的参数如下:
urlopen(url, data, timeout)

第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。

第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要传送的,在这个例子里面我们传送了URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。

Requset

其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例,构造时需要传入Url,Data等等的内容。

values = {"username":"xxxxxxx","password":"XXXX"}
data = urllib.urlencode(values)
##########两种方式
values = {}
values['username'] = "xxxxxxx"
values['password'] = "XXXX"
data = urllib.urlencode(values)
############post
request = urllib2.Request(url,data,headers = headers)
response = urllib2.urlopen(request)
#############get
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

现在正则表达式在这里稍作说明
1).*? 是一个固定的搭配,.和*代表可以匹配任意无限多个字符,加上?表示使用非贪婪模式进行匹配,也就是我们会尽可能短地做匹配,以后我们还会大量用到 .*? 的搭配。
2)(.*?)代表一个分组,在这个正则表达式中我们匹配了五个分组,在后面的遍历item中,item[0]就代表第一个(.*?)所指代的内容,item[1]就代表第二个(.*?)所指代的内容,以此类推。
3)re.S 标志代表在匹配时为点任意匹配模式,点 . 也可以代表换行符。
重点说明

方法:

urllib.urlencode(字典数据)
urllib2.Request(url,data,headers = headers)
urllib2.urlopen(request)
response.read().decode('utf-8','ignore')#防止编码html(不是每次都要的)
re.compile(正则)
re.findall(pattern,content)#找到所有的
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  爬虫 urllib python