一个Python小爬虫
2014-08-10 15:50
302 查看
从放暑假到现t在,看了2/3的鸟哥私房菜,稍微了解了点Linux的基本知识,感觉还可以。
一直想学Python,可是因为考研什么的一直没开始,虽然自己断断续续看了基本的语法规则,但是没静下心来好好实践下。7月决定去惠普实训,才给了我这么个时间,不用备战考研,因为我放弃了这个独木桥,学了一周终于写出了自己的第一个爬虫。
参考了www.jeapedu.com的视频,然后关掉视频出去吃了午饭,打了把DOTA,磕磕碰碰写出自己的程序:
[/code]
一直想学Python,可是因为考研什么的一直没开始,虽然自己断断续续看了基本的语法规则,但是没静下心来好好实践下。7月决定去惠普实训,才给了我这么个时间,不用备战考研,因为我放弃了这个独木桥,学了一周终于写出了自己的第一个爬虫。
参考了www.jeapedu.com的视频,然后关掉视频出去吃了午饭,打了把DOTA,磕磕碰碰写出自己的程序:
#-*- coding: utf-8 -*- #Author:toddlerya #History: 2014/8/10 import urllib,re num = raw_input("你要下载哪一页的淘宝小妹?\n输入一个页码: ") web = "http://mm.taobao.com/json/request_top_list.htm?type=0&page=" url = web + str(num) def getModelHomePage(url): val = urllib.urlopen(url).read() #print val modre = r'href=".*?com/\d+\.htm' modelre = re.compile(modre) modurls = modelre.findall(val) head = 'href="' for modurl in modurls: html = modurl[len(head):] return html def getImgUrl(): html = getModelHomePage(url) home = urllib.urlopen(html).read() imgre = r'src="\w+?.*?\.jpg' imglist = re.findall(imgre,home) return imglist def getImage(): imglist = getImgUrl() temp = 'src="' n =0 for img in imglist: image = img[len(temp):] #print image urllib.urlretrieve(image,"pic\\mm.jpg" +str(n)+".jpg") print "正在下载第%s张" % n n += 1 getImage() print "下载完毕!"
[/code]
相关文章推荐
- 毕业设计中怎样用python写一个搜索引擎的分布式爬虫---异样的美感
- [python脚本]一个简单的web爬虫(1)
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫(转)
- 一个简单的Python爬虫
- Python写的一个爬虫程序
- 毕业设计中怎样用python写一个搜索引擎的分布式爬虫---异样的美感
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- [Python]一起来写一个Python爬虫工具类whyspider
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- 基于python的一个大规模爬虫遇到的一些问题总结
- 一个简单的python爬虫程序
- 用python实现一个抓取电影的爬虫
- [python脚本]一个简单的web爬虫(1)
- 基于Python的一个简单爬虫(糗事百科爬虫)
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- 用Python写一个小小的爬虫程序
- [Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- 一个简单的python爬虫,以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例
- [Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)