Python3 百度图片 美女 下载 爬虫 多线程
2017-02-06 15:41
351 查看
本人电子系,只为一学生。心喜计算机,小编以怡情。
说明:下载百度图片中的美女图片修改:默认url都已经写好了,只需要改一下cookies就可食用
附加:运用了多线程,一个线程生产url,十个线程消费下载图片
解释:
1、用正则表达式解析网页内容
2、建议用IDE工具运行,以便随时终止
3、用的os模块,在工作空间里建立一个《小图片》的文件夹,图片都默认下载里面
缺点:我不太懂js的图片瀑布流效果怎么弄,所以一个关键词页面只能下载30张左右图片就转到其他的页面了
注意:这个是简单爬虫,爬完页面会自动爬 网页上面推荐的其他页面,即 相关搜索
import os import re import requests import threading #得到路径,建立小图片文件夹,图片默认下载其中 currentpath=os.getcwd() if not os.path.exists(currentpath+os.sep+'小图片'): os.mkdir(currentpath+os.sep+'小图片') cookies={'xxxxxxxx': 'xxxxxxxx'}#用自己的cookies,别拿我的干坏事 headers={'Host':'xxxxxxxx',#封装头部,否则有些图片下载不下来 'Referer':'xxxxxxxxxxxxx', 'Upgrade-Insecure-Requests':'x', 'User-Agent':'xxxxxxxxxxxxxxxxxxxxxxxxx'} #得到页面上图片的url与相关搜索的url def search(searchurl): response = requests.get(searchurl,cookies=cookies,headers=headers) text=response.text s = re.findall(r'thumbURL":"([a-zA-z]+://[\w\.%=/\d,&]*)', text)#所有图片的url m = re.findall(r'search/index.(\S*)"', text)#当前页面指向其他页面的url return s,m #根据传入的url与jpg名字下载图片 def download_pic(url,name): path=os.getcwd()+os.sep+'小图片' data=requests.get(url,cookies=cookies,headers=headers).content with open(path+os.sep+name,'wb') as f: f.write(data) print('图片下载完成:%s' % name) gimagelist=[]#图片的url queue=[]#相关搜索的url queue.append('tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&fm=index&pos=history&word=%E7%BE%8E%E5%A5%B3')#默认搜索关键词美女,你也可以换成其他的关键词url的index?后面的部分 gCondition=threading.Condition()#线程相关 visited=set()#用来存放已经搜过的页面的url class Producer(threading.Thread): def run(self): print('%s started' % threading.current_thread()) global gimagelist global gCondition global queue for j in range(1):#我默认循环一次,你也可以改很多 a=queue.pop(0)#从队列中取出一个关键词url尾部 searchurl='http://image.baidu.com/search/index?'+a#封装成url if searchurl not in visited:#如果没有访问过 imgs,otherurl=search(searchurl) gCondition.acquire()#上锁 for i in imgs: gimagelist.append(i)#添加图片url gCondition.notify_all()#唤醒所有等待的消费者 gCondition.release()#释放锁 visited.add(searchurl)#标记为已访问过 queue.extend(otherurl)#将相关搜索的url放入 class Consumer(threading.Thread): def run(self): print('%s started' % threading.current_thread()) while True: global gimagelist global gCondition gCondition.acquire()#上锁 while len(gimagelist)==0: gCondition.wait()#没有则等待 url=gimagelist.pop() name=url.rsplit('/')[-1]#取名字,以url后面的部分做名字 gCondition.release() download_pic(url,name)#下载图片 if __name__=='__main__': Producer().start() for i in range(10):#十个消费者线程数 Consumer().start()
相关文章推荐
- Python动态类型的学习---引用的理解
- Python3写爬虫(四)多线程实现数据爬取
- 垃圾邮件过滤器 python简单实现
- 下载并遍历 names.txt 文件,输出长度最长的回文人名。
- install and upgrade scrapy
- Scrapy的架构介绍
- Centos6 编译安装Python
- 使用Python生成Excel格式的图片
- 让Python文件也可以当bat文件运行
- [Python]推算数独
- Python中zip()函数用法举例
- Python中map()函数浅析
- Python将excel导入到mysql中
- Python在CAM软件Genesis2000中的应用
- 使用Shiboken为C++和Qt库创建Python绑定
- FREEBASIC 编译可被python调用的dll函数示例