如何抓取Js动态生成数据且以滚动页面方式分页的网页
2015-10-18 23:31
656 查看
当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢?如类似今日头条这样的网站:http://toutiao.com/我们可以使用Selenium来搞定这件事情。Selenium的设计目的虽然是用于Web应用程序的自动化测试,但是却非常适合用来做数据抓取,可以非常简单地绕过网站的反爬虫限制,因为Selenium直接运行在浏览器中,就像真正的用户在操作一样。使用Selenium,我们不但可以抓取Js动态生成数据的网页,而且可以抓取以滚动页面方式分页的网页。首先,我们使用maven引入Selenium依赖:?
接下来就可以写代码抓取了:?
代码也可以从我的开源项目HtmlExtractor中获取。这里我们共抓取了6页,每页20条新闻,共120条新闻,代码运行结果如下:?
相关文章推荐
- 【javaScript】基础知识续一
- JS模板引擎
- JS模板引擎 :ArtTemplate (1)
- javascript思维导图
- Servle和JSP的区别
- JSP
- js 验证码错误,输入框获得焦点并清除内容
- JavaScript 函数
- Javascript中类型的判断
- js事件的监听器的使用
- javascript 的三个弹出提示窗口
- javascript设计模式--单例模式
- js实现分页的几个源码,看完基本就懂了
- 欢迎使用CSDN-markdown编辑器
- Ajax详解
- js制作鼠标移动提示层
- 一段非常简单的让图片自动切换js代码
- JavaScript Core -- 函数详解(作用域&&参数值传递&&this关键字&&函数声明)
- JavaScript 面向对象
- jsp中的js代码调用EL表达式