Eclipse中配置使用Heritrix-1.14.4
2012-07-19 21:38
337 查看
Eclipse中配置使用Heritrix-1.14.4
1. 下载并解压heritrix-1.14.4-src.zip和heritrix-1.14.4.zip
2. 在Eclipse中新建java project,项目名定为heritrix_getstart
3. 将解压后的heritrix-1.14.4-src.zip中src/java/下的com,org,st文件夹复制到工程的src目录下
4. 将src/conf下的modules,profiles,selftest文件夹和heritrix.propertries,jndi.properities文件复制到工程的src目录下
5. 解压heritrix-1.14.4-zip将webapps文件夹复制到工程根目录下
6. 如图:
7. 打开工程中的heritrix.propertries文件修改以下配置项
a) heritrix.version
= 1.14.4,配置heritrix版本号
b) heritrix.jobsdir
= jobs,配置爬取的内容的放置文件夹
c) heritrix.cmdline.admin
=
username:password,配置webUI登录的用户名和密码
d) heritrix.cmdline.port
= 8888,配置webUI的登录端口
8. 将lib文件夹下的后有jar包加入到工程的classpath中
9. 在工程中找到org.archive.crawler下的Heritrix.java运行
10.
11.打开浏览器,输入地址:http://localhost:8888输入用户名和密码就可以登录到后台
可能遇到的问题
thread-10 org.archive.util.ArchiveUtils.<clinit>() TLD list unavailable
解决方法:到heritrix.1.14.4.jar包中将文件org/archive/util/tlds-alpha-by-domain.txt复制到工程中的org/archive/util目录下即可
Eclipse中导入Heritrix,报错找不到类
sun.net.www.protocol.file.FileURLConnection
第一次用Heritrix,按照网上看到的用法导入Heritrix到Eclipse 。结果在org.archive.crawler.Heritrix 中报了这个错误。结果我在JDK自带的jar又可以找到这个类。
后来发现,原来这个sun包是受保护的包,默认只有sun公司的软件才能使用。Eclipse会报错,然后把对保护使用waring就可以了。
具体做法:
Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning
1. 下载并解压heritrix-1.14.4-src.zip和heritrix-1.14.4.zip
2. 在Eclipse中新建java project,项目名定为heritrix_getstart
3. 将解压后的heritrix-1.14.4-src.zip中src/java/下的com,org,st文件夹复制到工程的src目录下
4. 将src/conf下的modules,profiles,selftest文件夹和heritrix.propertries,jndi.properities文件复制到工程的src目录下
5. 解压heritrix-1.14.4-zip将webapps文件夹复制到工程根目录下
6. 如图:
7. 打开工程中的heritrix.propertries文件修改以下配置项
a) heritrix.version
= 1.14.4,配置heritrix版本号
b) heritrix.jobsdir
= jobs,配置爬取的内容的放置文件夹
c) heritrix.cmdline.admin
=
username:password,配置webUI登录的用户名和密码
d) heritrix.cmdline.port
= 8888,配置webUI的登录端口
8. 将lib文件夹下的后有jar包加入到工程的classpath中
9. 在工程中找到org.archive.crawler下的Heritrix.java运行
10.
11.打开浏览器,输入地址:http://localhost:8888输入用户名和密码就可以登录到后台
可能遇到的问题
thread-10 org.archive.util.ArchiveUtils.<clinit>() TLD list unavailable
解决方法:到heritrix.1.14.4.jar包中将文件org/archive/util/tlds-alpha-by-domain.txt复制到工程中的org/archive/util目录下即可
Eclipse中导入Heritrix,报错找不到类
sun.net.www.protocol.file.FileURLConnection
第一次用Heritrix,按照网上看到的用法导入Heritrix到Eclipse 。结果在org.archive.crawler.Heritrix 中报了这个错误。结果我在JDK自带的jar又可以找到这个类。
后来发现,原来这个sun包是受保护的包,默认只有sun公司的软件才能使用。Eclipse会报错,然后把对保护使用waring就可以了。
具体做法:
Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning
相关文章推荐
- Heritrix1.14.4在Eclipse的配置和使用
- Heritrix1.14.4在Eclipse中的配置
- 在Eclipse中配置Heritrix-1.14.4版本
- 网络爬虫Heritrix1.14.4在MyEclipse中的安装配置与使用教程
- eclipse中配置heritrix的过程----heritrix-1.14.4
- eclipse里配置Heritrix-1.14.4
- 在 eclipse 下的heritrix1.14.4的配置
- Eclipse 配置 Heritrix 1.14.4
- Heritrix在eclipse中的配置过程(1.14.4版本)
- Heritrix 1.14.4的配置和初次使用
- heritrix1.14.4 源代码在eclipse下最简单的配置方法-------不会报错!
- Heritrix1.14.4安装配置和使用
- eclipse下配置Heritrix1.14.4
- 已配置好的 Heritrix 1.14.4 Eclipse 工程
- Eclipse中配置Heritrix-1.14.4
- 在Eclipse上Maven环境配置使用
- 使用eclipse+gdb进行arm板嵌入式linux远程调试的配置方法
- maven编译指定使用自己配置的jdk而不是eclipse自带的解决方法
- 中文分词语言处理HanPL配置,以及在eclipse中安装使用方式
- Eclipse配置Bytecode Outline及使用