配置和简单运行Heritrix3.2.0(环境为win10 64)
2016-04-09 20:41
351 查看
刚接触heritrix,配置流程如下:
1.在官网下载包:http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/
2将dist.zip和src.zip解压到文件夹中
3提取src.zip中的heritrix-3.2.0-src\engine\adhoc.keystore存放至heritrix-3.2.0-dist\bin目录下。这个步骤是解决无法用cmd打开heritrix的问题。
4.运行heritrix。用cmd进入到heritrix-3.2.0-dist\bin目录下输入heritrix -a admin:admin运行结果:
5.在浏览器中输入https://localhost:8443。浏览器可能会阻止,点击继续就可以了,然后输入用户名和密码admin。
6.进入主页面创建job
7之后刷新页面面可以看到job下的test,点击进入在点击configuration进入configuration页面进行信息配置:
特别提醒的字段jobName为这个job的名字
URLS HERE下面的url为要爬取的页面
operatorContactUrl为运行heritrix的地址
其他圈起来的可以随便填
这里可以完善信息,填写heritrix的版本号和填写邮箱地址。
将beanid为warcWriter的bean的class改为如图:这个可以改变抓取内容在计算机中的存储方式。这个为将网页以普通文件的形式存放。
8.最后点击保存,回到主页。点击job下的test,进入test页面准备抓取 。
依次build->launch->checkpoint->unpause进行抓取
build:配置信息
launch:准备抓取
checkpoint:检查
unpause:抓取
最后可以pause停止抓取。
抓取的结果在heritrix-3.2.0-dist\bin\jobs\test(crawl date)\mirror
1.在官网下载包:http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/
2将dist.zip和src.zip解压到文件夹中
3提取src.zip中的heritrix-3.2.0-src\engine\adhoc.keystore存放至heritrix-3.2.0-dist\bin目录下。这个步骤是解决无法用cmd打开heritrix的问题。
4.运行heritrix。用cmd进入到heritrix-3.2.0-dist\bin目录下输入heritrix -a admin:admin运行结果:
5.在浏览器中输入https://localhost:8443。浏览器可能会阻止,点击继续就可以了,然后输入用户名和密码admin。
6.进入主页面创建job
7之后刷新页面面可以看到job下的test,点击进入在点击configuration进入configuration页面进行信息配置:
特别提醒的字段jobName为这个job的名字
URLS HERE下面的url为要爬取的页面
operatorContactUrl为运行heritrix的地址
其他圈起来的可以随便填
这里可以完善信息,填写heritrix的版本号和填写邮箱地址。
将beanid为warcWriter的bean的class改为如图:这个可以改变抓取内容在计算机中的存储方式。这个为将网页以普通文件的形式存放。
8.最后点击保存,回到主页。点击job下的test,进入test页面准备抓取 。
依次build->launch->checkpoint->unpause进行抓取
build:配置信息
launch:准备抓取
checkpoint:检查
unpause:抓取
最后可以pause停止抓取。
抓取的结果在heritrix-3.2.0-dist\bin\jobs\test(crawl date)\mirror
相关文章推荐
- simple webcrawler 初步理解
- Javascript x 网络爬虫
- OBIEE 12c SAMPLE VM
- 剑指offer-面试题35:第一个只出现一次的字符
- 来北京后的点点滴滴
- springMVC的请求方法中处理多个mybatis方法,到某个方法中断了:BindingException:has an unsupported return type
- 初识CSS
- poj3524 Corn Fields(状态压缩dp)
- TCP、UDP、IP 协议分析
- 第40讲项目2——水仙花数(版本1)
- 3.javascript函数
- linux基础学习之 gSOAP2.8.30在linux下的安装
- 学习进度条(第六周)
- 经典的Java基础面试题集锦
- 求数组逆序对个数
- JAVA String 类 总结(1)
- java集合中各个接口与实现类的区别
- Hbase 学习笔记3----操作以及维护
- FZU 2029 买票问题 树状数组+STL
- [Bug-IOS] - linker command failed with exit code 1 (use -v to see invocation)