nutch导入myeclipse 二次开发
2014-05-09 19:13
162 查看
nutch2.2.1的搭建与导入myeclipse8.5的二次开发
nutch2.x相对于nutch1.x最大的差别即增加了Gora模块,使存储多样简洁化。因为以前构建过nutch1.2、nutch1.6,因为这此构建会相对容易些,但出忽意料的也废了1天的时间,很是有点小郁闷,现将各关键点总结如下。1、将nutch2.2.1从官网中下载下来,得到的是源码包,需要自己去ant或是maven。
2、进行ant之前,先确定自己要存储的数据库,是sql型还是nosql型,这里会有相对的不少配置文件的改动,因为其天然的更支持nosql型,所以问题会少些。由于个人原因选择的mysql作为db,其中遇到不少意外情况。
3、以mysql为例,修改gora.properties如下:
首先注释掉默认的
修改ivy文件夹下的ivy.xml文件,找到gora的jar包相关部分,改成如下:主要原因在于gora0.3是不支持mysql存储的,只能选择0.2.1版本,并将与该版本对应的sql的jar包解掉注释即可,这样会在ant完成后出现gora0.2.1-core和gora-sql-0.1.1-incubating.jar再结合前几步,就可以完成编译后的布署nutch2.2.1爬虫了。
1、导入步骤往上有很多,大多是可行的,即在下载源码-->在myeclipse中新建项目--》选择已存在项目--》选择nutch2.2.1源码--》在order and export中设置conf选中并top到顶端,即可完成导入。
2、此时会有n多的错误,看到相应的错误导入所需的包即可,其包即是在自行ant编译时的build文件的local中找到,还有因为找不到的一些jar包的小叉号的源码部分多为plugin部分,此时即可支掉该部分源码即可,保证先跑通项目,个别的plugin可以日后再追加即可。估计这个过程会有n多人遇n种不同的情况,可以留言交流。
如果你是在cygwin的windows的环境下模拟linux,还会遇到最为典型的第3个问题如下:
3、我是在cgywin的win7环境下搭建的,所以要将hadoop1.2.0的源码导入并修改即注释其FileUtil.java源码的那个权限验证方法即可。或是将改完的hadoop1.2.0的源码导成jar包加入到nutch2.2.1中亦可。
相关文章推荐
- nutch2.2.1的搭建与导入myeclipse8.5的二次开发
- 二次开发平台数据导入功能问题总结
- <Revit二次开发>把wall参数导入到Excel表格中
- 合作开发,导入MyEclipse项目报错问题
- myeclipse导入nutch1.6的配置和若干问题
- eclipse导入war包二次开发
- java web 开发中 eclipse 或myeclipse无法解析导入 javax.servlet 的解决方法
- 如何将MyEclipse开发的项目导入到Eclipse中运行
- LinPhone 导入 Android Studio 实现二次开发
- 在MyEclipse中搭建Nutch开发环境
- 将eclipse开发的web项目导入到myeclipse
- 搭建eclipse环境下 Nutch+Mysql 二次开发环境
- Ubuntu环境下Nutch1.2 二次开发(添加中文分词)
- 如何将MyEclipse开发的项目导入到Eclipse中运行
- Nutch 二次开发需要修改的东西
- 如何将MyEclipse开发的项目导入到Eclipse中运行
- Nutch二次开发介绍
- 如何将MyEclipse开发的项目导入到Eclipse中运行
- nutch安装,使用,二次开发入门 ( by quqi99 )
- 如何将MyEclipse开发的项目导入到Eclipse中运行