您的位置:首页 > 编程语言 > Python开发

python爬虫(五)图片下载爬虫

2017-07-01 17:30 197 查看
在网页的源代码中,图片的信息在<img> 标签中 其中<img src=>中表明图片所在地址,<img class=>表明图片类型,如表情图片,正常图片,还是广告图片

#--*coding:utf-8

import urllib
import re
#正则表达式

def get_content(url):
"""获得文档"""
html = urllib.urlopen(url)
content = html.read()
html.close()
return content

def get_images(info):
"""
<img class ="BDE_Image" src="http://" pic_ext="jpeg" changedsize="true" width="50" height="373">
"""
regex = r'class="BDE_Image" src="(.+?\.jpg)"'
pat = re.compile(regex)

i = 0

images_code = re.findall(pat,info)
#print len(images_code)
for image_url in images_code:
print image_url
urllib.urlretrieve(image_url,'%s.jpg'%i)
i +=1

url = "https://tieba.baidu.com/p/2772656630"
info = get_content(url)
print get_images(info)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: