您的位置:首页 > 编程语言 > Java开发

Heritrix在开发环境myEclipse下的配置方法

2010-10-15 20:01 369 查看
配置的时候,先从网上搜的配置方法,但不知道怎么回事,老是配置不成功,就是输入http://127.0.0.1:8090(我设置的端口是8090)时,打不开。我看网上配置的方法都是大同小异的,但不知道怎么到我这就不成功了,很苦恼。后来不知怎么的,就认认真真的按部就班的按一篇文章上写的配置,配置成功了。

下面是我配置成功参考的步骤:

主要步骤如下:

1. 下载heritrix-1.14.4.zip和heritrix-1.14.4-src.zip,分别解压到heritrix-1.14.4和heritrix-1.14.4-src;

2.新建空的Java Project, 命名为Heritrix(路径为%MYECLIPSE_HOME%/workspace/Heritrix); (注:Eclipse在创建工程有两种选择,可不用把代码放进src目录,默认的话,会生成bin和src文件夹的,在下图选择,第一个就是不用放在src,第二个是默认的。我选择的是不把代码放到src中

3. 把heritrix-1.14.4-src/src/java/目录下的org文件夹和st文件夹拷贝到Heritrix根目录下;

把heritrix-1.14.4/src下的webapps文件夹拷贝到Heritrix根目录下;

把heritrix-1.14.4-src下的lib目录拷贝到Heritrix根目录下;

4. 解压缩heritrix-1.14.4目录下的heritrix-1.14.4.jar文件到heritrix_jar文件夹,把heritrix_jar目录下的modules、profiles、selftest三个文件夹以及arcMetaheaderBody.xsl、heritrix.properties、jndi.properties拷贝到Heritrix根目录下;

5. 在项目Herirtix的Propertries->Java Build Path->Liabraries->Add External JARs 引入F:/Heritrix/heritrix-1.14.4-src/lib的jar包

6. 打开Heritrix /heritrix.properties文件,找到“heritrix.cmdline.admin =”,修改为“heritrix.cmdline.admin = admin:admin”;“heritrix.cmdline.port = 8090”

7. 找到org.archive.crawler包,运行Heritrix.java中的main函数,run as Java Application。得到下面的提示信息:

11:55:13.750 EVENT Starting Jetty/4.2.23
11:55:14.218 EVENT Started WebApplicationContext[/,Heritrix Console]
11:55:14.437 EVENT Started SocketListener on 127.0.0.1:8090
11:55:14.437 EVENT Started org.mortbay.jetty.Server@a01335
Heritrix version: 1.14.3

可能出现的问题:

配置好之后当我们运行Heritrix.java的时候可能编译不通过。这是因为sun包是受保护的包,默认只有sun公司的软件才能使用。myEclipse会报错,把对保护使用waring就可以了。修改方式(myEclipse菜单栏):

Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning
8、在org.archive.crawler包中找到Heritrix.java文件并运行。可以在浏览器中键入http://127.0.0.1:8090察看结果。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: