[Web-Harvest数据采集之二]Web-Harvest基础-抓取java代码分析
2011-12-14 17:02
561 查看
Web-Harvest中负责数据抓取的java代码,还是非常简单的,只有简单的几行代码,实际上整个抓取的复杂过程都被已经Web-Harvest封装起来,这极大地方便了开发人员运用Web-Harvest进行数据采集。
抓取结果部分代码如下:
从结果中可以看出有些URL是不完整的,这很好办,我们在写入数据库的时候可以写个方法处理一下就行了。
[Web-Harvest数据采集之二]Web-Harvest基础-抓取java代码分析源码及开发要用到的jar包
/*获取配置文件*/ ScraperConfiguration config = new ScraperConfiguration("./360buy/category/360buy_category.xml"); /*声明一个抓取机并设置抓取结果保存路径*/ Scraper scraper=new Scraper(config, "./360buy/category/"); scraper.setDebug(true); /*开始抓取*/ scraper.execute();
抓取结果部分代码如下:
<?xml version="1.0" encoding="gbk" ?> <buy360> <c> <c1>图书、音像</c1> <c2>音像</c2> <c3>音乐</c3> <u>http://mvd.360buy.com/music.html</u> </c> <c> <c1>图书、音像</c1> <c2>音像</c2> <c3>影视</c3> <u>http://mvd.360buy.com/movie.html</u> </c> <c> <c1>图书、音像</c1> <c2>音像</c2> <c3>教育音像</c3> <u>http://mvd.360buy.com/education.html</u> </c> <c> <c1>图书、音像</c1> <c2>文艺</c2> <c3>小说</c3> <u>/products/1713-3258-000.html</u> </c> <c> <c1>图书、音像</c1> <c2>文艺</c2> <c3>文学</c3> <u>/products/1713-3259-000.html</u> </c> <c> <c1>图书、音像</c1> <c2>文艺</c2> <c3>青春文学</c3> <u>/products/1713-3260-000.html</u> </c>
从结果中可以看出有些URL是不完整的,这很好办,我们在写入数据库的时候可以写个方法处理一下就行了。
[Web-Harvest数据采集之二]Web-Harvest基础-抓取java代码分析源码及开发要用到的jar包
相关文章推荐
- [Web-Harvest数据采集之一]WebHarvest基础-配置文件分析
- 基于webmagic的java网页爬虫,抓取网页指定节点,然后使用dom4j分析xml数据
- 抓取Web网页数据分析
- 抓取Web网页数据分析
- [JavaWeb基础] 001.简单的JavaWeb代码和Tomcat配置部署
- c# 抓取Web网页数据分析
- SOC之安全事件分析基础01 — 数据采集
- .net2.0抓取Web网页数据分析
- 抓取Web网页数据分析
- 【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析
- [置顶] Java数据采集-4.分析常见的翻页(加载数据)方式
- Java基础_内存分析_分析代码
- 用Java代码抓取“天津环境空气质量数据”
- web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?
- 【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析
- java抓取数据+破解屏蔽ip访问【多线程数据采集之三】
- 抓取Web网页数据分析
- 黑马程序员--Java基础加强--02.代码简化 书写规律I_原始数据类型【重载】【多态】【泛型】【泛型限定】【个人总结】
- java+Jsoup 正则过滤html网页标签【多线程数据采集之二】
- 2017/12/27java基础学习——代码错误分析