Python3 爬虫实战(二)——图片爬虫
2017-07-20 13:01
399 查看
上一篇博文http://blog.csdn.net/nju_flepped/article/details/75452517爬取了ONE的每日一句,ONE不仅每日一句都很经典,每天的图片也都很好看。这次我们就来爬取每期的图片(截止到2017年7月19号)。
有了上一次爬虫的基础,这次要轻松很多。我们这次只需要分析页面源代码找到目标图片所在的标签即可。源代码如下:
通过观察源代码我们可以看到,目标图片所在的标签是img标签,我们只需要使用bs4的find_all()查找函数,即可找到,整个源代码共有两个img标签,目标图片在第二个img标签中(所以第22行代码中用h[1]取第二个img标签)。代码如下:
结果:
有了上一次爬虫的基础,这次要轻松很多。我们这次只需要分析页面源代码找到目标图片所在的标签即可。源代码如下:
通过观察源代码我们可以看到,目标图片所在的标签是img标签,我们只需要使用bs4的find_all()查找函数,即可找到,整个源代码共有两个img标签,目标图片在第二个img标签中(所以第22行代码中用h[1]取第二个img标签)。代码如下:
import re from urllib import request import requests from bs4 import BeautifulSoup url='http://wufazhuce.com/one/'#每一期公共部分 Path='B:\\pytest\\MLtest\\one_img\\'#图片保存路径 num=0#记录爬取照片的个数 for i in range(14,1775): s=str(i) currenturl=url+s#当前期的url try: res=requests.get(currenturl) res.raise_for_status() except requests.RequestException as e: print(e) else: html=res.text soup = BeautifulSoup(html,'html.parser') a=soup.select('.one-titulo')#期次 h=soup.find_all('img')#图片标签 imgUrl=h[1].get('src')#取图片的链接 index=re.sub("\D","",a[0].string.split()[0])#取得期次 if(index==''): continue imgName=Path+'VOL.'+index+'.jpg'#图片的完整路径含图片名 request.urlretrieve(imgUrl,imgName)#保存图片 num+=1 print('已爬取%s张图片...'%num) print('-----爬取结束-----')
结果:
相关文章推荐
- [python3.6]爬虫实战之爬取淘女郎图片
- Python爬虫实战(1)——百度贴吧抓取帖子并保存内容和图片
- Python3爬虫实战之爬取京东图书图片
- python爬虫实战——图片自动下载器
- [python爬虫小实战2]根据用户输入关键词爬取今日头条图集,并批量下载图片
- python学习笔记(一)爬虫实战:图片自动下载器
- Python3 大型网络爬虫实战 003 — scrapy 大型静态图片网站爬虫项目实战 — 实战:爬取 169美女图片网 高清图片
- python爬虫实战——5分钟做个图片自动下载器
- Python爬虫实战(三):简单爬取网页图片
- python爬虫实战——5分钟做个图片自动下载器
- 09Python爬虫---爬虫实战之京东图片
- Python 3实战爬虫之爬取京东图书的图片详解
- Python爬虫实战一之爬取百度贴吧中图片
- 爬虫实战---python图片验证码破解,PIL和安装
- python爬虫实战(一)--爬取知乎话题图片
- Python3网络爬虫:Scrapy入门实战之爬取动态网页图片
- Python 图片爬虫实战(使用 urllib 库)
- python爬虫实战(1)抓取网页图片自动保存
- Python 爬虫实战案例 : 煎蛋网全站图片爬虫
- Python爬虫实战(五) :下载百度贴吧帖子里的所有图片