一个简单的爬虫代码爬取糗事百科段子(selenium+ChromeDriver)
2017-09-11 22:28
253 查看
一个简单的爬虫入门代码,爬取糗事百科主页的段子(不包括图片,仅文字)。
前期准备:
需要安装selenium和ChromeDriver。
将chromedriver.exe放在Chrome的安装目录下。
配置环境变量。点击我的电脑->属性->高级系统设置->PATH->新建(Chrome的安装位置,比如我的是:C:\Program Files (x86)\Google\Chrome\Application)
一切就绪以后就可以开始最重要的工作——分析需要爬取的目标网页。
首先打开糗事百科主页和开发者工具(F12),然后我们会发现,这个页面的左侧都是笑话,右侧都是广告。
通过开发者工具可以发现左侧笑话区域的id是content-left,content-left 中还有很多用户的头像、姓名等信息,这些是我们不需要的,我们只需要看笑话、段子就好了。继续用之前的方法,我们可以发现,包裹着笑话文字div的class为 content。所以我们实则需要的内容是id为content-left中的class为content的内容。
代码如下:
参考资料:陈斌 Python爬虫课
前期准备:
需要安装selenium和ChromeDriver。
将chromedriver.exe放在Chrome的安装目录下。
配置环境变量。点击我的电脑->属性->高级系统设置->PATH->新建(Chrome的安装位置,比如我的是:C:\Program Files (x86)\Google\Chrome\Application)
一切就绪以后就可以开始最重要的工作——分析需要爬取的目标网页。
首先打开糗事百科主页和开发者工具(F12),然后我们会发现,这个页面的左侧都是笑话,右侧都是广告。
通过开发者工具可以发现左侧笑话区域的id是content-left,content-left 中还有很多用户的头像、姓名等信息,这些是我们不需要的,我们只需要看笑话、段子就好了。继续用之前的方法,我们可以发现,包裹着笑话文字div的class为 content。所以我们实则需要的内容是id为content-left中的class为content的内容。
代码如下:
#/usr/bin/env python #coding:utf-8 #导入selenium from selenium import webdriver class Qiubai: def __init__(self): #打开Chrome浏览器 self.dr = webdriver.Chrome() #访问糗事百科主页 self.dr.get('https://www.qiushibaike.com/') def print_content(self): #获取id为“content-left”的元素 main_content = self.dr.find_element_by_id('content-left') #获取class为“content”的元素 contents = main_content.find_elements_by_class_name('content') #通过for循环输出获取到的内容 i = 1 for content in contents: print(str(i) + "." + content.text +'\n') i += 1 self.quit() def quit(self): #关闭浏览器 self.dr.quit() Qiubai().print_content()
参考资料:陈斌 Python爬虫课
相关文章推荐
- 一个爬取糗事百科段子的简单爬虫
- Python3.4简单爬虫实现之抓取糗事百科段子
- Python3之爬虫selenium+chromedriver资源下载及“Message: 'chromedriver' executable needs to be in PATH.处理
- 基于Python的一个简单爬虫(糗事百科爬虫)
- ASP.NET MVC WebApi 返回数据类型序列化控制(json,xml) 用javascript在客户端删除某一个cookie键值对 input点击链接另一个页面,各种操作。 C# 往线程里传参数的方法总结 TCP/IP 协议 用C#+Selenium+ChromeDriver 生成我的咕咚跑步路线地图 (转)值得学习百度开源70+项目
- Python写一个简单的爬虫样例(不超过50行代码)
- selenium+chromedriver安装及简单使用
- 爬虫工具:虚拟机Selenium和PhantomJS,ChromeDriver 镜像安装教程
- 一个简单的定向爬虫代码
- python爬虫webdriver.Chrome 数据可视化简单案例matplotlib
- java实现一个简单的网络爬虫代码示例
- Python 爬虫 简单实例 爬取糗事百科段子
- Java一个简单的爬虫:爬去网页代码
- 11行代码完成一个超级简单爬虫
- 【Python3.6爬虫学习记录】(七)使用Selenium+ChromeDriver爬取知乎某问题的回答
- 用Python selenium+webdriver的一个简单的登录自动化测试--豆丁网登录测试
- 一个糗事百科的简单爬虫
- [Selenium] 使用Chrome Driver 的示例
- python学习(十六)写爬虫爬取糗事百科段子
- CentOS 7.x环境下搭建: Headless chrome + Selenium + ChromeDriver 实现自动化测试