您的位置:首页 > 编程语言 > Python开发

python 爬图 helloworld

2015-07-27 00:37 519 查看
最近发现 吾志 上用户的头像都很个性,另外,对于没有把日记设为私密的用户,最后一天的日记是公开的,谁都可以查看。

所以,如果每天把所有可查看的日记爬一遍,那么~~ 哈哈

以前对爬虫只是了解一点点,没有真的玩过。既然今晚兴致来了,那就随便学一下咯~

参考 http://blog.csdn.net/pleasecallmewhy/article/details/8925978
参考 http://cuiqingcai.com/1052.html
#coding=utf-8
import os
import urllib
import urllib2
import re
import cookielib

def mkdir(path):
# 去除左右两边的空格
path = path.strip()
# 去除尾部 \ 符号
path = path.rstrip("\\")

if not os.path.exists(path):
os.makedirs(path)

return path

def save_file(path, file_name, data):
if data == None:
return

mkdir(path)
if (not path.endswith("/")):
path = path + "/"
f = open(path+file_name, "wb")
f.write(data)
f.flush()
f.close()

user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'
headers = {'User-Agent' : user_agent}
values = {}
data = urllib.urlencode(values)

def getHtml(url):
req = urllib2.Request(url, data, headers)
page = urllib2.urlopen(req, timeout=10)
html = page.read()
page.close()
#print html
return html

def get_file(url):
try:
opener = urllib2.build_opener()
opener.addheaders = [('User-Agent', 'Mozilla/5.0')]
urllib2.install_opener(opener)
req = urllib2.Request(url)
operate = opener.open(req)
data = operate.read()
operate.close()
return data
except BaseException, e:
print e, 'fuck'
return None

def getImg(html):
reg = r'src="(.+?\.jpg)" alt='
imgre = re.compile(reg)
imglist = re.findall(imgre, html)

x = 0
for imgurl in imglist:
#urllib.urlretrieve(imgurl, '%s.jpg' % x)
da = get_file(imgurl)
save_file('.', '%s.jpg' % x, da)
x += 1

return x

html = getHtml("https://wuzhi.me/last")

print getImg(html)


十分简陋,哈哈~
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: