如何使用python网络爬虫从视频网站上爬取电影数据
.爬虫
把网页上显示的信息下载到本地
网页上显示的信息,是根据html文件的信息决定的
浏览器对你输入的这个链接地址对应的服务器进行请求,
如果请求成功,服务器会给浏览器一个响应,响应里面就包含html文件
爬虫的目的就是拿到服务器响应里面包含的html文件内容
1.以什么方式可以拿到html内容
1.起始链接
2.代码发起请求,伪装成浏览器
3.接收到这个响应
4.拿到响应里面的html文件内容
2.python爬虫需要用到的基本工具
1.requests
第三方的包
pip install requests
2.selenium 自动化测试
pip install selenium
3.拿到全部的html信息之后,怎么提取我们想要的部分
1.re 正则表达式
2.使用html文件的特性
标签 最简单的,速度慢
3.xpath 节点思想
4.使用标签拿到具体内容
使用第三方的包 beautifulsoup4
pip install beautifulsoup4
这个包可以把str解析成html的标签
1.使用html格式来解析这个指定的str
doc = BeautifulSoup(response.text, 'html.parser')
2.找出结果中的指定内容,需要用到CSS选择器
doc = BeautifulSoup(response.text, 'html.parser')
# print(doc)
# 表示id为aaa的标签写法为:#aaa
# 表示class为aaa的标签,写法为:.aaa
如下代码实现通过驱动googl浏览器的方式,从视频网站上爬取电影网页并获取想要的电影内容并写入本地文档
[code]from selenium import webdriver from bs4 import BeautifulSoup from time import sleep for i in range(1, 4, 1): base_url = "https://list.iqiyi.com/www/1/-------------11-" + str(i) + "-1-iqiyi--.html" driver = webdriver.Chrome(executable_path='d:\\chromedriver.exe') driver.get(base_url) doc = BeautifulSoup(driver.page_source, 'html.parser') # print(doc) view_l = doc.select('.site-piclist > li') # print(view_l) with open('data4.txt', 'a', encoding='utf-8') as f: for vl in view_l: c1 = vl.select('.site-piclist_pic > a')[0].get('title') c2 = vl.select('.role_info >em > a') s = '' for i in c2: s += i.get('title') + ',' s = s.strip(',') f.write(c1 + ':' + s + '\n')
- 如何使用python爬虫自动的从网站上爬取想要的数据
- python爬取网站数据保存使用的方法
- android视频开发之一Android 如何使用juv-rtmp-client.jar向Red5服务器发布实时视频数据
- 如何使用DirectDraw直接显示YUV视频数据
- Python3.5:爬取网站上电影数据
- 如何使用DirectDraw直接显示RGB、YUV视频数据(播放yuv)
- 如何使用Python工具分析风险数据
- 【量化小讲堂-Python&Pandas系列01】如何快速上手使用Python进行金融数据分析
- 小电影网站Python爬虫,一天可爬取500万以上的国产自拍视频!
- 如何使用DirectDraw直接显示YUV视频数据
- Python网络爬虫,在网站上扒数据
- 如何使用DirectDraw直接显示YUV视频数据
- python网络爬虫-如何编写代码清洗数据
- 【python】如何批量读取文件夹的所有文件数据,os模块与open函数结合使用实例
- 如何用云存储和CDN加速网站图片视频、阿里云OSS的使用(转)
- 如何使用DirectDraw直接显示YUV视频数据
- python爬取网站数据保存使用的方法
- 如何使用DirectDraw直接显示YUV视频数据
- android 解码出来的视频frame数据,是如何一步步的传递到显示端的(使用 GPU offline 合成)
- 浅谈如何使用python抓取网页中的动态数据