python爬虫 线程池创建并获取文件代码实例
2020-04-01 07:07
711 查看
本实例主要进行线程池创建,多线程获取、存储视频文件
梨视频:利用线程池进行视频爬取
#爬取梨视频数据 import requests import re from lxml import etree from multiprocessing.dummy import Pool import random # 定义获取视频数据方法 def getVideoData(url): # url为列表中的视频url return requests.get(url=url,headers=headers).content # 定义存储数据方法 def saveVideo(data): fileName = str(random.randint(0,5000))+'.mp4' with open(fileName,'wb') as fp: fp.write(data) # 爬取数据 #实例化一个线程池对象,开启5个线程池 pool = Pool(5) url = 'https://www.pearvideo.com/category_1' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36' } page_text = requests.get(url=url,headers=headers).text tree = etree.HTML(page_text) li_list = tree.xpath('//div[@id="listvideoList"]/ul/li') video_url_list = [] # 存的是将要下载视频的url for li in li_list: detail_url = 'https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0] detail_page = requests.get(url=detail_url,headers=headers).text #因为视频连接不在标签汇中,而是一个js语句,所以用正则匹配 video_url = re.findall('srcUrl="(.*?)",vdoUrl',detail_page,re.S)[0] video_url_list.append(video_url) # map函数的应用:参数1:回调函数,参数2:列表; #将列表中的参数赋值给回调函数的形参,让回调函数处理 video_data_list = pool.map(getVideoData,video_url_list) pool.map(saveVideo,video_data_list)
以上就是本文的全部内容,希望对大家的学习有所帮助
您可能感兴趣的文章:
相关文章推荐
- Python通过递归获取目录下指定文件代码实例
- python 获取当前目录下的文件目录和文件名实例代码详解
- python 爬虫 批量获取代理ip的实例代码
- python3获取文件中url内容并下载代码实例
- 使用python脚本自动创建pip.ini配置文件代码实例
- python3通过selenium爬虫获取到dj商品的实例代码
- Python获取apk文件URL地址实例
- python 获取文件修改时间实例
- python文件夹遍历,文件操作,获取文件修改创建时间
- Python之文件目录遍历实例代码
- python版本、文件信息及时间获取函数实例
- 【爬虫】Python2爬虫代码之获取金融品种行情数据
- Python微博移动端爬虫实例(附代码)
- php上传文件,创建递归目录的实例代码
- python文件夹遍历,文件操作,获取文件修改创建时间<转>
- Python 爬虫多线程详解及实例代码
- python 脚本(获取指定文件夹、指定文件格式、的代码行数、注释行数)
- python编写爬虫获取区域代码-递归获取所有子页面
- Python爬虫获取整个站点中的所有外部链接代码示例
- Python3多线程爬虫实例讲解代码