python3爬虫Selenium学习心得
2018-03-09 19:03
295 查看
一. 介绍
Selenium是一个Web自动化测试工具,支持多种编程语言,支持跨浏览器的自动化测试工具。
Selenium在爬虫中一般应用在动态网页的内容经过加密后,并且JavaScript代码混淆,肉眼很难读取完成。这种情况下使用selenium来模拟浏览器解析Javascript, 再爬取被解析以后的内容。python版的selenium官方文档。
二 使用
1. demo演示
2. 访问页面
3. 查找单个元素
4. 查找多个元素 只需把find_element --> find_elements(多个元素会用列表呈现)
5. 元素交互操作
【Tips】更多的元素交互参考。
6. 获取元素信息
selenium中可以通过page_source属性可以获取网页的源代码, 通过获取的源代码,可以使用正则,BeautifulSoup、Pyquery、Xpath来提取信息。Selenium提供了选择元素的方法,返回的是WebElement类型,也有相关的方法和属性来直接提取元素信息,如属性、文本等。
获取属性: 使用get_attribute()
获取文本:
每个WebElement元素都有text属性,可以直接调用这个属性就可以得到元素内部的文本信息,像BeautifulSoup的get_text()方法, PyQuery的text()方法。
Selenium是一个Web自动化测试工具,支持多种编程语言,支持跨浏览器的自动化测试工具。
Selenium在爬虫中一般应用在动态网页的内容经过加密后,并且JavaScript代码混淆,肉眼很难读取完成。这种情况下使用selenium来模拟浏览器解析Javascript, 再爬取被解析以后的内容。python版的selenium官方文档。
二 使用
1. demo演示
2. 访问页面
3. 查找单个元素
4. 查找多个元素 只需把find_element --> find_elements(多个元素会用列表呈现)
5. 元素交互操作
【Tips】更多的元素交互参考。
6. 获取元素信息
selenium中可以通过page_source属性可以获取网页的源代码, 通过获取的源代码,可以使用正则,BeautifulSoup、Pyquery、Xpath来提取信息。Selenium提供了选择元素的方法,返回的是WebElement类型,也有相关的方法和属性来直接提取元素信息,如属性、文本等。
获取属性: 使用get_attribute()
获取文本:
每个WebElement元素都有text属性,可以直接调用这个属性就可以得到元素内部的文本信息,像BeautifulSoup的get_text()方法, PyQuery的text()方法。
相关文章推荐
- 【Python3.6爬虫学习记录】(八)Selenium模拟登录新浪邮箱并发送邮件
- Python爬虫小白学习心得(一
- python3个人爬虫之:BeautifulSoup学习心得
- Python爬虫学习——使用selenium和phantomjs爬取js动态加载的网页
- [python爬虫] Selenium常见元素定位方法和操作的学习介绍
- [python爬虫] Selenium常见元素定位方法和操作的学习介绍
- python爬虫的学习心得分享
- Python爬虫学习心得
- [python爬虫] Selenium常见元素定位方法和操作的学习介绍
- [python爬虫] Selenium常见元素定位方法和操作的学习介绍
- Python爬虫的小小学习心得
- python爬虫Requests库:学习心得
- 【Python3.6爬虫学习记录】(七)使用Selenium+ChromeDriver爬取知乎某问题的回答
- Python爬虫学习(9):Selenium的使用
- Python爬虫(入门+进阶)学习笔记 1-8 使用自动化神器Selenium爬取动态网页(案例三:爬取淘宝商品)
- Python爬虫学习之Selenium详解
- Python爬虫框架Scrapy 学习笔记 9 ----selenium
- python爬虫----小白学习心得
- Python爬虫初步个人学习及心得