您的位置:首页 > 运维架构

nutch 在hadoop环境下过滤抓取url的设置

2016-12-02 16:44 267 查看
摘要: 有个网站有问题,导致nutch 抓取超过24小时,故修改 master主机的nutch conf下regex-urlfiter.txt,发现没有效果。nutch在Hadoop环境下运行,master 和 slave 主机 都要读取regex-urlfilter.txt, 这个文件应该放在哪儿?

分析:nutch在单机和hadoop环境下运行不一样, nutch目录下有一个runtime子目录,该子目录下有 local和deploy两个文件夹,local是本地运行的文件,deploy是分布式运行的文件,分布运行的conf文件应该打包到deyloy的apache-nutch-XX.job

中。所以,一旦要修改 nutch/conf中文件内容, 修改完后,需要ant一下,重新生成deyloy的apache-nutch-XX.job即可
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: