爬取百度贴吧的一些图片,使用request、re、urllib模块
2017-12-06 00:00
531 查看
直接上代码~~~~~开心
图片名字以0...命名
图片保存在本地文件夹里,也就是此刻.py文件同目录下
图片名字以path的内容命名:
图片名字以0...命名
图片保存在本地文件夹里,也就是此刻.py文件同目录下
# -*- coding: utf-8 -*- # 引入requests模块 import requests import re import urllib # 获取html def getHtml(url): html = requests.get(url) return html.content htmls = getHtml('http://tieba.baidu.com/p/5467656444') # print htmls # 获取image的url,返回一个数组 def getImage(htmls): image = re.findall(r'src="(http://imgsrc.*?\.jpg)"', htmls, re.M|re.I) # return image x = 0 for url in image: # print url urllib.urlretrieve(url, '%s.jpg' % x) x = x + 1 image = getImage(htmls) # print image
图片名字以path的内容命名:
# -*- coding: utf-8 -*- # 引入requests模块 import requests import re import urllib import urlparse def getHtml(url): html = requests.get(url) return html.content htmls = getHtml('http://tieba.baidu.com/p/5467656444') # print htmls def getImage(htmls): image = re.findall(r'src="(http://imgsrc.*?\.jpg)"', htmls, re.M|re.I) # return image x = 0 for url in image: # print url # print urlparse.urlparse(url) # print urlparse.urlparse(url).path print urlparse.urlparse(url).path.split('/')[-1] urlName = urlparse.urlparse(url).path.split('/')[-1] urllib.urlretrieve(url, urlName) # urllib.urlretrieve(url, '%s.jpg' % x) # x = x + 1 image = getImage(htmls) # print image
相关文章推荐
- 使用nodejs的 request 模块请求并转发图片至浏览器显示错误的问题
- 使用Python的urllib2模块处理url和图片的技巧两则
- 使用re模块爬取网页图片并下载
- python3 使用urllib.request模块,关于bytes和string的那些事
- 使用Python的urllib2模块处理url和图片的技巧两则
- VB6 中在模块级中使用DefType的一些用法解释
- 使用 Request.QueryString 接受参数时,跟编码有关的一些问题
- 使用 Request.QueryString 接受参数时,跟编码有关的一些问题
- 使用 Request.QueryString 接受参数时,跟编码有关的一些问题
- JSP中使用request.getHeader("referer")的一些问题
- 使用 Request.QueryString 接受参数时,跟编码有关的一些问题
- 【转】使用HttpWebRequest POST图片等文件,带参数
- PLL模块使用中的一些错误
- 使用 Request.QueryString 接受参数时,跟编码有关的一些问题
- PYTHON正则表达式 re模块使用说明
- PYTHON正则表达式 re模块使用说明
- 使用 Request.QueryString 接受参数时,跟编码有关的一些问题
- 使用 Request.QueryString 接受参数时,跟编码有关的一些问题
- 使用 Request.QueryString 接受参数时,跟编码有关的一些问题
- 使用 Request.QueryString 接受参数时,跟编码有关的一些问题