您的位置:首页 > Web前端 > JavaScript

如何抓取Js动态生成数据且以滚动页面方式分页的网页

2015-10-18 23:31 656 查看
当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢?如类似今日头条这样的网站:http://toutiao.com/我们可以使用Selenium来搞定这件事情。Selenium的设计目的虽然是用于Web应用程序的自动化测试,但是却非常适合用来做数据抓取,可以非常简单地绕过网站的反爬虫限制,因为Selenium直接运行在浏览器中,就像真正的用户在操作一样。使用Selenium,我们不但可以抓取Js动态生成数据的网页,而且可以抓取以滚动页面方式分页的网页。首先,我们使用maven引入Selenium依赖:?
接下来就可以写代码抓取了:?
代码也可以从我的开源项目HtmlExtractor中获取。这里我们共抓取了6页,每页20条新闻,共120条新闻,代码运行结果如下:?
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: