您的位置：首页 > 编程语言 > Python开发

Python爬虫（二）图片下载爬虫

2016-08-19 15:55 323 查看

# _*_ encoding:utf-8 _*_

"""
图片下载爬虫
"""
import re
import urllib2
import urllib

#获取网页内容
def get_content(url):
html=urllib2.urlopen(url)
content=html.read()
html.close()

return content

#根据网页内容，通过正则获取图片url，最后下载
def get_images(info):
"""
<img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/
sign=a66d6c61d60735fa91f04eb1ae500f9f/cc1ebe096b63f6246615f7798544ebf81a4ca305.jpg"
pic_ext="jpeg" width="490" height="777">
:param info:
:return:
"""
#首先观察html文件，找到一个规则
#然后用正则表达式来表示这个规则
regex=r'img class="BDE_Image" src="(.+?\.jpg)" '
#.匹配除换行符之外的任意单个字符
#+:表示匹配一次或多次
#？：表示贪婪模式，尽可能少的匹配
pat=re.compile(regex)
images_code=re.findall(pat,info)

#将图片保存到本地
i=0

for images_url in images_code:
print images_url
urllib.urlretrieve(images_url,'%s.jpg'%i)#保存在本地，参数1：图片地址，2：图片
i+=1
return images_code

url="http://tieba.baidu.com/p/2772656630"
info=get_content(url)
images=get_images(info)#images是一个列表类型
#print len(images)#输出列表的长度

如果您喜欢我写的博文，读后觉得收获很大，不妨小额赞助我一下，让我有动力继续写出高质量的博文，感谢您的赞赏！！！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航