您的位置:首页 > 编程语言 > Python开发

一个Python小爬虫

2014-08-10 15:50 302 查看
从放暑假到现t在,看了2/3的鸟哥私房菜,稍微了解了点Linux的基本知识,感觉还可以。

一直想学Python,可是因为考研什么的一直没开始,虽然自己断断续续看了基本的语法规则,但是没静下心来好好实践下。7月决定去惠普实训,才给了我这么个时间,不用备战考研,因为我放弃了这个独木桥,学了一周终于写出了自己的第一个爬虫。

参考了www.jeapedu.com的视频,然后关掉视频出去吃了午饭,打了把DOTA,磕磕碰碰写出自己的程序:

#-*- coding: utf-8 -*-
#Author:toddlerya
#History: 2014/8/10

import urllib,re

num = raw_input("你要下载哪一页的淘宝小妹?\n输入一个页码: ")
web = "http://mm.taobao.com/json/request_top_list.htm?type=0&page="
url = web + str(num)

def getModelHomePage(url):
val = urllib.urlopen(url).read()
#print val
modre = r'href=".*?com/\d+\.htm'
modelre = re.compile(modre)
modurls = modelre.findall(val)
head = 'href="'
for modurl in modurls:
html = modurl[len(head):]
return html

def getImgUrl():
html = getModelHomePage(url)
home = urllib.urlopen(html).read()
imgre = r'src="\w+?.*?\.jpg'
imglist = re.findall(imgre,home)
return imglist

def getImage():
imglist = getImgUrl()
temp = 'src="'
n =0
for img in imglist:
image = img[len(temp):]
#print image
urllib.urlretrieve(image,"pic\\mm.jpg" +str(n)+".jpg")
print "正在下载第%s张" % n
n += 1

getImage()
print "下载完毕!"


[/code]
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: