nutch 1.7 修改代码后如何编译发布,并集群采集攻略
2013-09-18 16:52
477 查看
nutch 1.3之后,分布式的可执行文件与单机可执行文件进行了分离 接上篇,nutch 1.7 导入 eclipse 本篇所要解决的问题: nutch下载下来经过简单的配置即可进行采集,但有时候我们需要修改nutch的源码 (比如不遵守机器人协议,比如我要保存网页的编码),这个时候如何编译为可执行程序呢? tar zxvf apache-nutch-1.7-src.tar.gz -C . mv apache-nutch-1.7 apache-nutch-1.7-src cp -rv libreback/lib/ apache-nutch-1.7-src/ 查看job工作状态 http://10.0.0.5:50030/jobtracker.jsp 第一步 将apache-nutch-1.7-bin中的 plugins 拷贝到 apache-nutch-1.7-src 目录下 修改apache-nutch-1.7-src/conf/nutch-default.xml 将plugin.folders 选项 将./src/plugin 该为 ./plugins 第二步: ant 然后将 runtime/deploy/apache-nutch-1.7.job scp 到 hadoop master节点的 hadoop-1.2.1的根目录下。 然后chmod 777 apache-nutch-1.7.job 更改权限为可执行 第三步; 将urls上传到dfs中 第四步 运行: bin/hadoop jar apache-nutch-1.7.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 7 -topN 50 其他: 采集完后,查询采集统计: bin/hadoop jar apache-nutch-1.7.job org.apache.nutch.crawl.CrawlDbReader crawl/crawldb -stats -sort 会发现好多unfetched,原因是: nutch-default.xml对generate的时候进行了,分数限制,只有大于0分的才会被generate。所以会有很多分数低的没被采集。 (将数据url dump 出来你会发现 unfetched的URL都是负分,而且负的挺大的) 考虑到注释掉: // consider only entries with a score superior to the threshold if (scoreThreshold != Float.NaN && sort < scoreThreshold) return; 最后还是觉得修改: <property> <name>generate.min.score</name> <value>0</value> <description>Select only entries with a score larger than generate.min.score.</description> </property> value 为 -1
相关文章推荐
- wince下,修改private下的代码,如何进行快速编译,比如之编译自己修改部分的代码
- VS2003编译后的网站如何修改代码
- wince下,修改private下的代码,如何进行快速编译,比如之编译自己修改部分的代码
- 如果只修改部分代码如何避免整个工程重新编译
- 修改marathon源码后,如何编译,部署到集群中?
- 【转】如何在github上fork一个项目来贡献代码以及同步原作者的修改 -- 不错
- ruby中如何直接编译运行C代码
- (转)unity3D 如何提取游戏资源 (反编译)+代码反编译
- linux shell脚本自动从git上拉取maven代码编译打war包并发布到tomcat
- 如何制做在线编译代码的网站?
- 如何使用git精确定位代码的出处,作者,时间,SHA,并精确查看代码的修改记录
- Idea中包内中的置文件如何发布到编译后的目录中去
- 如何使用命令行编译和运行Java代码
- 如何发布VC2005/VC2008编译的程序
- Vss2008 项目调试编译并继续功能(Debug 同时修改代码功能)(已解决)
- 分享一下,如何编译自己修改的源码模块
- 当修改一些代码时,使用什么编译命令可以最有效率
- ASP.NET WebForm中JavaScript修改了页面上Label的值,如何在后台代码中获取
- 如何用C#动态编译、执行代码
- 实现NUTCH中文分词的代码修改方法(收藏)