heritrix1.14.4 源代码在eclipse下最简单的配置方法-------不会报错!
2010-09-17 18:21
330 查看
网络上关于hertrix的配置的文章很多,其实源代码文件夹很多东西可以不需要,下面给一个简单的配置。
1.下载heritrix-1.14.4-src.zip 并解压
2.新建一个java项目,将解压后的heritrix-1.14.4-src/heritrix-1.14.4/src/java 目录下的
com,org,st 三个文件夹拷贝到自己项目的src中
3.将heritrix-1.14.4/src/resources/org/archive/util 目录下的tlds-alpha-by-domain.txt 拷贝到自己项目的src/org/archive/util 下 (注:不然会报空指针异常,感谢 http://blog.csdn.net/strawbingo/archive/2010/07/11/5726341.aspx 提供解决)
4. 拷贝heritrix-1.14.4-src/heritrix-1.14.4/src 下的 webapps与conf 文件夹到你项目的根目录(即与自己项目的src目录平行)
(注: 其实 conf目录也可以不用这样放置,将conf文件夹下所有东西复制到自己项目的src目录下依然可以运行 )
5. 将源代码中的lib目录中的jar包全部加入到你的classpath中
6. 打开conf下面的 heritrix.properties(如果你在第5步中采用复制conf下文件到项目src下,你就在src下找这个文件), 定位到12 行,将heritrix.version = @version@ 修改为 heritrix.version = 1.14.4,定位到第19行,将 heritrix.cmdline.admin = 的“=”后面 加入用户名密码,修改后如:heritrix.cmdline.admin = admin:123 (前面用户名,后面密码,中间用分号隔开) 其中的heritrix.cmdline.port = 8080 为端口,你可以自己修改
--------------------至此你便可以运行org.archive.crawler.Heritrix.java启动程序了。
并可以在浏览器下输入 http://localhost:8080/ 输入用户名与密码(admin:123) 登陆
--------------------------
时间关系,下次再记录怎么配置一次抓取任务,并谈论下怎么修改源代码定制自己的爬虫。
1.下载heritrix-1.14.4-src.zip 并解压
2.新建一个java项目,将解压后的heritrix-1.14.4-src/heritrix-1.14.4/src/java 目录下的
com,org,st 三个文件夹拷贝到自己项目的src中
3.将heritrix-1.14.4/src/resources/org/archive/util 目录下的tlds-alpha-by-domain.txt 拷贝到自己项目的src/org/archive/util 下 (注:不然会报空指针异常,感谢 http://blog.csdn.net/strawbingo/archive/2010/07/11/5726341.aspx 提供解决)
4. 拷贝heritrix-1.14.4-src/heritrix-1.14.4/src 下的 webapps与conf 文件夹到你项目的根目录(即与自己项目的src目录平行)
(注: 其实 conf目录也可以不用这样放置,将conf文件夹下所有东西复制到自己项目的src目录下依然可以运行 )
5. 将源代码中的lib目录中的jar包全部加入到你的classpath中
6. 打开conf下面的 heritrix.properties(如果你在第5步中采用复制conf下文件到项目src下,你就在src下找这个文件), 定位到12 行,将heritrix.version = @version@ 修改为 heritrix.version = 1.14.4,定位到第19行,将 heritrix.cmdline.admin = 的“=”后面 加入用户名密码,修改后如:heritrix.cmdline.admin = admin:123 (前面用户名,后面密码,中间用分号隔开) 其中的heritrix.cmdline.port = 8080 为端口,你可以自己修改
--------------------至此你便可以运行org.archive.crawler.Heritrix.java启动程序了。
并可以在浏览器下输入 http://localhost:8080/ 输入用户名与密码(admin:123) 登陆
--------------------------
时间关系,下次再记录怎么配置一次抓取任务,并谈论下怎么修改源代码定制自己的爬虫。
相关文章推荐
- 在Eclipse中配置Heritrix 1.14.1(测试成功,方法简单)
- 终于让一个Heritrix能爬了……不用Eclipse的简单配置方法
- eclipse里配置Heritrix-1.14.4
- 在Eclipse中配置Heritrix-1.14.4版本
- Heritrix在Eclipse下的配置方法
- eclipse下配置Heritrix1.14.4
- eclipse配置struts2最简单的方法
- eclipse转换工作空间的时候需要配置maven等各种配置 现在有一种简单的方法可以不用复杂配置 只配置一次就行
- 已配置好的 Heritrix 1.14.4 Eclipse 工程
- Heritrix1.14.4在Eclipse的配置和使用
- eclipse中配置heritrix的过程----heritrix-1.14.4
- 在 eclipse 下的heritrix1.14.4的配置
- Eclipse中配置Heritrix-1.14.4
- eclipse新建maven web项目步骤、出现错误解决方法及maven settings简单配置
- Eclipse中配置使用Heritrix-1.14.4
- Heritrix1.14.4在Eclipse中的配置
- Eclipse 配置 Heritrix 1.14.4
- Eclipse中配置Ajax的DWR的简单方法
- Heritrix在eclipse中的配置过程(1.14.4版本)
- eclipse中创建NDK和JNI开发环境最简单配置方法