您的位置:首页 > 其它

配置和简单运行Heritrix3.2.0(环境为win10 64)

2016-04-09 20:41 351 查看
刚接触heritrix,配置流程如下:

1.在官网下载包:http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/



2将dist.zip和src.zip解压到文件夹中

3提取src.zip中的heritrix-3.2.0-src\engine\adhoc.keystore存放至heritrix-3.2.0-dist\bin目录下。这个步骤是解决无法用cmd打开heritrix的问题。

4.运行heritrix。用cmd进入到heritrix-3.2.0-dist\bin目录下输入heritrix -a admin:admin运行结果:



5.在浏览器中输入https://localhost:8443。浏览器可能会阻止,点击继续就可以了,然后输入用户名和密码admin。

6.进入主页面创建job



7之后刷新页面面可以看到job下的test,点击进入在点击configuration进入configuration页面进行信息配置:





特别提醒的字段jobName为这个job的名字

URLS HERE下面的url为要爬取的页面

operatorContactUrl为运行heritrix的地址

其他圈起来的可以随便填



这里可以完善信息,填写heritrix的版本号和填写邮箱地址。



将beanid为warcWriter的bean的class改为如图:这个可以改变抓取内容在计算机中的存储方式。这个为将网页以普通文件的形式存放。

8.最后点击保存,回到主页。点击job下的test,进入test页面准备抓取 。

依次build->launch->checkpoint->unpause进行抓取

build:配置信息

launch:准备抓取

checkpoint:检查

unpause:抓取

最后可以pause停止抓取。

抓取的结果在heritrix-3.2.0-dist\bin\jobs\test(crawl date)\mirror
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  webcrawler