您的位置:首页 > 编程语言 > Python开发

python 爬虫 多任务方式 协程 爬取虎牙美女小姐姐

2019-04-13 22:10 2376 查看

准备工作

  • 先进入虎牙直播分类颜秀把网页源码保存在meinv.html的文件中,放在pycharm 项目当前路径下。
  • 然后把爬取后的文件保存在pycharm项目当前目录下的picture文件夹下(文件夹提前生成)

多任务思路:

  • 先创建卵,把卵创建完后放入列表a中
  • 再运用gevent.joinall(a)采用多任务方式下载
import urllib.request
import gevent
import re
from gevent import monkey

monkey.patch_all()

#图片下载操作
def download(img_name,img_url):
req=urllib.request.urlopen(img_url)
img_content=req.read()
with open("pictures/%s"%img_name,"wb") as f:
f.write(img_content)

def main():
#读取网页中的源码内容
with open("meinv.html","r",encoding='utf-8') as f:
url_content=f.read()
#使用正则过滤出图片的网址
img_li=re.findall(r"https://huya.*?\.jpg",url_content)
print(len(img_li))
i=0
li = list()
for j in img_li:
a =li.append(gevent.spawn(download,str(i)+".jpg",j))
i += 1
gevent.joinall(a)

if __name__ == '__main__':
main()
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: