您的位置:首页 > 编程语言 > Python开发

[python]第一炮:抓取图片的小爬虫

2013-10-03 10:15 295 查看
24K纯菜鸟的学习笔记,欢迎批评指点!

思路:通过查看页面源代码获取图片信息,即图片地址


如上图:
图片对应的地址为:src='".*?\.jgp" pic_ext',该正则包括所有".jpg"格式图片的地址。所以下载的时候就去找命中这条正则的地址。
至此,我们知道了需要引如正则表达式组件“re”,以及打开网页的组件“urllib”。urllib组件有个方法用来打开网页,即:urllib.urlopen()

#!/usr/bin/python
import re
import urllib
#定义一个函数getHtml(),通过url获取页面源代码
def getHtml(url):
page=urllib.urlopen(url)
html=page.read()
return html
定义一个函数getJpg()
def getJpg(html):
reg=r'src="(.*?\.jpg)" pic_ext' #获得图片地址
jpgre=re.compile(reg)           #编译正则,让正则跑的更快
jpglist=re.findall(jpgre,html)  #返回所有匹配数据
x=0
for jpgurl in jpglist:
urllib.urlretrieve(jpgurl,'%s.jpg' % x)    #下载文件,并重命名
x+=1
html= getHtml("http://tieba.baidu.com/p/2622651859")
print getJpg(html)


一个小爬虫诞生了,虽然功能很简单,但是在批量下载苍老师图片的时候可以很快搞定,再也不用一张一张右击保存了

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: