您的位置：首页 > Web前端 > JavaScript

WebCollector爬取JS加载的数据很简单，首先需要加入selenium的所有jar包，maven项目向pom.xml中添加下面代码

2017-05-11 21:33 836 查看

WebCollector爬取JS加载的数据很简单，首先需要加入selenium的所有jar包，maven项目向pom.xml中添加下面代码即可：

<dependency>

    <groupId>org.seleniumhq.selenium</groupId>

    <artifactId>selenium-java</artifactId>

    <version>2.44.0</version>

</dependency>

下面这个例子可以获取加载完成后的页面：

import cn.edu.hfut.dmic.webcollector.crawldb.DBManager;

import cn.edu.hfut.dmic.webcollector.crawler.Crawler;

import cn.edu.hfut.dmic.webcollector.fetcher.Executor;

import cn.edu.hfut.dmic.webcollector.model.CrawlDatum;

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;

import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BerkeleyDBManager;

import org.apache.log4j.Level;

import org.apache.log4j.Logger;

import org.openqa.selenium.WebElement;

import org.openqa.selenium.htmlunit.HtmlUnitDriver;

/**

* 本教程演示如何利用WebCollector爬取javascript生成的数据

*

* @author hu

*/

public class DemoSelenium {

    static {

        //禁用Selenium的日志

        Logger logger = Logger.getLogger("com.gargoylesoftware.htmlunit");

        logger.setLevel(Level.OFF);

    }

    public static void main(String[] args) throws Exception {

        Executor executor=new Executor() {

            @Override

            public void execute(CrawlDatum datum, CrawlDatums next) throws Exception {

                HtmlUnitDriver driver = new HtmlUnitDriver();

                driver.setJavascriptEnabled(true);

                driver.get(datum.getUrl());

                WebElement element=driver.findElementByCssSelector("span#outlink1");

                System.out.println("反链数:"+element.getText());

            }

        };

        //创建一个基于伯克利DB的DBManager

        DBManager manager=new BerkeleyDBManager("crawl");

        //创建一个Crawler需要有DBManager和Executor

        Crawler crawler= new Crawler(manager,executor);

        crawler.addSeed("http://seo.chinaz.com/?host=www.tuicool.com");

        crawler.start(1);

    }

}

使用Selenium等模拟浏览器进行异步数据的爬取，效率较低，对于大多数情况，如果不是很麻烦，尽量想办法分析网页的Ajax请求，找出Ajax请求数据的规律。对于较简单的Ajax，即单纯的http get请求，找到请求URL的拼接规律，生成URL，将URL作为爬虫的种子，即可爬取Ajax请求结果。对于较为复杂的Ajax请求，例如需要使用http post方法的请求，可以自己构架爬虫的Requester。很多瀑布流的网站都可以通过简单地Ajax请求分析方法轻松抓取到数据。

原文链接：http://datahref.com/archives/30

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航