您的位置:首页 > 编程语言 > Java开发

heritrix1.14.4 源代码在eclipse下最简单的配置方法-------不会报错!

2010-09-17 18:21 330 查看
网络上关于hertrix的配置的文章很多,其实源代码文件夹很多东西可以不需要,下面给一个简单的配置。

1.下载heritrix-1.14.4-src.zip 并解压

2.新建一个java项目,将解压后的heritrix-1.14.4-src/heritrix-1.14.4/src/java 目录下的

com,org,st 三个文件夹拷贝到自己项目的src中

3.将heritrix-1.14.4/src/resources/org/archive/util 目录下的tlds-alpha-by-domain.txt 拷贝到自己项目的src/org/archive/util 下 (注:不然会报空指针异常,感谢 http://blog.csdn.net/strawbingo/archive/2010/07/11/5726341.aspx 提供解决)

4. 拷贝heritrix-1.14.4-src/heritrix-1.14.4/src 下的 webapps与conf 文件夹到你项目的根目录(即与自己项目的src目录平行)

(注: 其实 conf目录也可以不用这样放置,将conf文件夹下所有东西复制到自己项目的src目录下依然可以运行 )

5. 将源代码中的lib目录中的jar包全部加入到你的classpath中

6. 打开conf下面的 heritrix.properties(如果你在第5步中采用复制conf下文件到项目src下,你就在src下找这个文件), 定位到12 行,将heritrix.version = @version@ 修改为 heritrix.version = 1.14.4,定位到第19行,将 heritrix.cmdline.admin = 的“=”后面 加入用户名密码,修改后如:heritrix.cmdline.admin = admin:123 (前面用户名,后面密码,中间用分号隔开) 其中的heritrix.cmdline.port = 8080 为端口,你可以自己修改

--------------------至此你便可以运行org.archive.crawler.Heritrix.java启动程序了。

并可以在浏览器下输入 http://localhost:8080/ 输入用户名与密码(admin:123) 登陆

--------------------------

时间关系,下次再记录怎么配置一次抓取任务,并谈论下怎么修改源代码定制自己的爬虫。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: