您的位置：首页 > 编程语言 > Python开发

[python]第一炮：抓取图片的小爬虫

2013-10-03 10:15 295 查看

24K纯菜鸟的学习笔记，欢迎批评指点！

思路：通过查看页面源代码获取图片信息，即图片地址

如上图：
图片对应的地址为：src='".*?\.jgp" pic_ext'，该正则包括所有".jpg"格式图片的地址。所以下载的时候就去找命中这条正则的地址。
至此，我们知道了需要引如正则表达式组件“re”，以及打开网页的组件“urllib”。urllib组件有个方法用来打开网页，即：urllib.urlopen()

#!/usr/bin/python
import re
import urllib
#定义一个函数getHtml()，通过url获取页面源代码
def getHtml(url):
page=urllib.urlopen(url)
html=page.read()
return html
定义一个函数getJpg()
def getJpg(html):
reg=r'src="(.*?\.jpg)" pic_ext' #获得图片地址
jpgre=re.compile(reg)           #编译正则，让正则跑的更快
jpglist=re.findall(jpgre,html)  #返回所有匹配数据
x=0
for jpgurl in jpglist:
urllib.urlretrieve(jpgurl,'%s.jpg' % x)    #下载文件，并重命名
x+=1
html= getHtml("http://tieba.baidu.com/p/2622651859")
print getJpg(html)

一个小爬虫诞生了，虽然功能很简单，但是在批量下载苍老师图片的时候可以很快搞定，再也不用一张一张右击保存了

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航