您的位置:首页 > Web前端

Heritrix使用常见问题及解决方案

2012-08-17 15:52 441 查看
常见问题

1. Access restriction 错误

错误信息:

Access restriction: The type FileURLConnection is not accessible due to restriction on required library C:\Program Files\Java\jdk1.6.0_20\jre\lib\rt.jar,如图 24 所示。

图 24. Access restriction 错误


 

解决方案:

这是 JRE 的访问限制导致报错,在 MyHeritrix 工程上右键单击选择“Build PathConfigure Build Path …”,然后选择 Library 选项卡,将“JRE System Library”删除然后重新导入一下即可修复。或者选择“WindowsPreferencesJavaCompilerErrors/Warnings”找到“Deprecated and restricted API”下的“Forbidden reference (access rules)”,将默认设置“Error”改为“Warning”或“Ignore”。

2. NullPointerException 的错误

错误信息如图 25 所示:

图 25. NullPointerException 错误


 

解决方案:

这个错误的原因是缺少了“tlds-alpha-by-domain.txt”文件,在 heritrix-1.14.4-src\src\resources\org\archive\util 下可以找到该文件,将其拷贝到 MyHeritrix\src\org\archive\util 中即可。

3. Modules 界面无法改变选择项

错误信息如图 26 所示。

图 26. Modules 界面无法改变选择项


 

解决方案:

这是因为没有添加运行时所需的配置文件,参照下图为 Classpath 添加参数即可。

 



注意事项

Heritrix 属于多线程下载爬虫,在公司内网使用有抓取限制。

总结

在搜索引擎的开发过程中,使用一个优秀的爬虫来获得所需要的网页信息是第一步,也是整个系统成功的关键。Heritrix 是一个功能强大而且高效的爬虫,具有良好的可扩展性。本文介绍了它在 windows 下 Eclipse 中的配置运行以及扩展,使您可以以最快的速度上手使用 Heritrix,享受您的爬虫之旅。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息