Python+Selenium实现微博自动化爬虫
2016-08-11 09:48
3195 查看
目的:
利用python和selenium实现自动化爬虫
所需工具:
1、python2.7
2、selenium库(pip install selenium或者easy_install selenium进行安装)
3、火狐浏览器
安装好上述工具之后就可以开始微博爬虫啦!
首先,打开你的python编辑器(本人使用的是sublime3),设置一下编码格式如下:
然后导入所需要的库:
利用如下代码,自动打开你的火狐浏览器并跳转到微博登录首页:
其中的time.sleep是让程序等候3秒后再接着运行,为了避免因为网速的影响而导致页面信息抓取错误。运行这段代码之后,就会发现你的浏览器已经跳转到微博登录首页了,这个时候需要让浏览器实现自动点击账号登录并输入账号和密码。代码如下:
运行上述代码之后,就会发现你已经自动登录微博了,然后需要跳转到你所要爬取微博内容所在的页面:
然后就可以开始爬取你想要的信息啦,本人所要爬取的内容有微博的粉丝数量、每条微博的内容(包括点赞数、转发数、回复数)。因为这个页面需要拖动滑动条到网页最下面才能完全显示所有信息,所以在爬取内容之前应该先将滑动条拖到最下方,代码如下:
运行上面的所有代码之后,就可以开始爬取内容了。
上面的代码中,对于要爬取的信息并没有采用正则去匹配,而是采用Xpath(比Xpath更为精准定位的是css定位),对于Xpath不懂的可以百度一下。
运行完上面所有代码之后,这一页所要爬的内容就以及全部爬下来并分别保存在L_1(粉丝数量)、data_text(微博内容)、data_time(微博发布的时间)、data_relay(微博内容转发数量)、data_comment(微博内容评论数量)、data_support(微博内容点赞数量),最后你就可以利用pandas将这些数据保存在csv中。
上面的代码只是爬取了一个页面的所需内容,要是想爬取多个页面,稍微修改一下代码就可以了。如果有什么不明白的,可以给文章后面的邮箱发邮件。
全部代码如下:
利用python和selenium实现自动化爬虫
所需工具:
1、python2.7
2、selenium库(pip install selenium或者easy_install selenium进行安装)
3、火狐浏览器
安装好上述工具之后就可以开始微博爬虫啦!
首先,打开你的python编辑器(本人使用的是sublime3),设置一下编码格式如下:
运行完上面所有代码之后,这一页所要爬的内容就以及全部爬下来并分别保存在L_1(粉丝数量)、data_text(微博内容)、data_time(微博发布的时间)、data_relay(微博内容转发数量)、data_comment(微博内容评论数量)、data_support(微博内容点赞数量),最后你就可以利用pandas将这些数据保存在csv中。
上面的代码只是爬取了一个页面的所需内容,要是想爬取多个页面,稍微修改一下代码就可以了。如果有什么不明白的,可以给文章后面的邮箱发邮件。
全部代码如下:
相关文章推荐
- [Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图
- Python爬虫 Selenium实现自动登录163邮箱和Locating Elements介绍
- 利用Python爬虫实现百度网盘自动化添加资源
- Selenium + PhantomJS + python 简单实现爬虫的功能
- Python实现的微博爬虫-资料收集
- Python+selenium的GUI自动化实现
- 基于Python的Selenium自动化(3)— 实现验证码截取并识别
- Python+Selenium 自动化实现实例-获取页面元素信息
- 第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求
- python爬虫——基于selenium用火狐模拟登陆爬搜索关键词的微博
- python+beautifulsoup/xpath实现新浪微博某互粉好友全部好友圈微博爬虫
- python+selenium调用浏览器(IE-Chrome-Firefox)实现爬虫功能
- python 和 selenium实现web UI功能自动化测试框架(米兔888)
- [Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
- 【python爬虫】利用selenium和Chrome浏览器进行自动化网页搜索与浏览
- Linux配置Selenium+Chrome+Python实现自动化测试
- python3 [爬虫实战] 微博爬虫京东客服之Selenium + Chrom浏览器的使用(上)
- python中 Selenium--》爬虫的终极大招,可用作自动化模拟操作
- Python+Selenium实现浏览器爬虫多窗口切换