您的位置：首页 > 编程语言 > Python开发

一个Python小爬虫

2014-08-10 15:50 302 查看

从放暑假到现t在，看了2/3的鸟哥私房菜，稍微了解了点Linux的基本知识，感觉还可以。

一直想学Python，可是因为考研什么的一直没开始，虽然自己断断续续看了基本的语法规则，但是没静下心来好好实践下。7月决定去惠普实训，才给了我这么个时间，不用备战考研，因为我放弃了这个独木桥，学了一周终于写出了自己的第一个爬虫。

参考了www.jeapedu.com的视频，然后关掉视频出去吃了午饭，打了把DOTA，磕磕碰碰写出自己的程序：

#-*- coding: utf-8 -*-
#Author:toddlerya
#History: 2014/8/10

import urllib,re

num = raw_input("你要下载哪一页的淘宝小妹?\n输入一个页码: ")
web = "http://mm.taobao.com/json/request_top_list.htm?type=0&page="
url = web + str(num)

def getModelHomePage(url):
val = urllib.urlopen(url).read()
#print val
modre = r'href=".*?com/\d+\.htm'
modelre = re.compile(modre)
modurls = modelre.findall(val)
head = 'href="'
for modurl in modurls:
html = modurl[len(head):]
return html

def getImgUrl():
html = getModelHomePage(url)
home = urllib.urlopen(html).read()
imgre = r'src="\w+?.*?\.jpg'
imglist = re.findall(imgre,home)
return imglist

def getImage():
imglist = getImgUrl()
temp = 'src="'
n =0
for img in imglist:
image = img[len(temp):]
#print image
urllib.urlretrieve(image,"pic\\mm.jpg" +str(n)+".jpg")
print "正在下载第%s张" % n
n += 1

getImage()
print "下载完毕！"

[/code]

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航