第一次初学爬虫编写的最简单的爬出百度贴吧的图片
2018-10-25 11:47
99 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_42940303/article/details/83377339
、`此代码可以无限翻页下载,可以在上面直接改URL里面的贴吧名字就能爬取自己喜欢的贴吧的图片,不过 不建议爬取大贴吧,因为大贴吧 帖子多 运行很久才能下载,下面附上简单的代码
url=‘https://tieba.baidu.com/f?kw=性能测试&ie=utf-8’ 中间的性能测试 是贴吧的名字
#coding:utf-8 import re import requests import os from lxml import etree url='https://tieba.baidu.com/f?kw=性能测试&ie=utf-8' html=respose.text selector=etree.HTML(html) links1= selector.xpath('//*[@class="red_text"]/text()') pagenumber=int(re.sub(',', '', links1[0]))/50 print re.sub(',', '', links1[0]) urls=[] urls2=[] for i in range(pagenumber+1): n=i*50 url1=url+'&pn='+str(n) print url1 respose=requests.get(url1) html1=respose.text selector1=etree.HTML(html1) links = selector1.xpath('//div[@class="threadlist_lz clearfix"]/div/a[@rel="noreferrer"]/@href') for link in links: link='http://tieba.baidu.com'+link respose=requests.get(link) url4=re.findall(r'class="BDE_Image".*?src="(.*?)"',respose.text,re.S) #re.S 把文本信息转换成1行匹配 urls2=urls2+url4 urls=urls+urls2 print len(urls) print len(urls) x=0 for i in range(len(urls)): result=requests.get(urls[i]) x+=1 print '正在下载第'+str(i)+'张' with open('D:/zzz/p%s.jpg'%x,'wb') as file: file.write(result.content)
![下载的进度可以显示出来
相关文章推荐
- Python实现简单爬虫功能--批量下载百度贴吧里的图片
- Python爬虫_简单获取百度贴吧图片
- Python-简单的爬虫案例(百度贴吧-图片)
- 简单爬虫脚本——对百度贴吧的帖子中的图片进行爬取,可以爬取下一页
- 简单爬虫,爬去百度贴吧图片
- Python编写百度贴吧的简单爬虫
- python简单小爬虫爬取易车网图片
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- 网络爬虫(四):一个简单的百度贴吧的小爬虫
- 简单的python爬虫抓取图片实例
- Python2.7网络爬虫---简单的爬取百度贴吧的小爬虫
- 简单的Python抓taobao图片爬虫
- 简单的抓取淘宝图片的Python爬虫
- python(1)-实现简单的图片爬虫
- Python中使用urllib2模块编写爬虫的简单上手示例
- python实现简单爬虫抓取图片
- 初学Python爬虫(三):图片下载、微信自动回复和数据可视化
- 使用jsoup和httpclient编写的简单爬虫工具
- Python 爬虫图片简单实现
- 使用Python编写简单网络爬虫抓取视频下载资源