nutch1.0 在windows环境下的安装与使用
2012-03-28 15:30
489 查看
步骤:
1、下载资源
2、安装过程
3、抓取过程
4、部署过程
5、检测过程
进入正题:
1、下载资源:
cygwin:http://cygwin.com/install.html,setup.exe
nutch-0.9:http://115.com/file/behqez1a (太难找了)
nutch-1.0:http://115.com/file/anq4fh8t
nutch-1.2:http://115.com/file/dpny2r6s
nutch-1.4:http://labs.renren.com/apache-mirror/nutch/
相信使用nutch的人都已经装了jdk、tomcat。
2、安装过程:
cygwin安装:
http://apps.hi.baidu.com/share/detail/30458811,全部安装后,9.4G,准备好足够的空间
nutch的安装:(1.3一下版本,1.3以上请看:http://hi.baidu.com/haininghacker/blog/item/dd91173c08e882d89f3d6285.html#0)
主要是配置,将刚才的下载gz包解压到某个地方,如g:\nutch-1.0
A) nutch-1.0下建一个logs文件夹,目的是为了爬的时候记录日志到其中
B) nutch-1.0下建一个crawled文件夹,目的是爬到的页面建索引到这个目录,至关重要!
C) nutch-1.0下新建一个txt,放入网址,如http://www.apache.org/,取名urls.txt。[注意:网址最后一个/必须要,否则会不抓网页],如有多个网址用换行隔开就行
D) nutch-1.0》conf下crawl-urlfilter.txt,修改倒数第三行和第四行,如
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*apache.org/
可以再在下面加其他的网址,当然最简单就是+^http://([a-z0-9]*\.)*就行了
这里需要注意一点,如果需要抓动态网页,还需要修改其中的一行,具体详见:http://www.blogjava.net/kxx129/archive/2010/04/24/319280.html
E) nutch-1.0》conf下nutch-site.xml,<configuration></configuration>中加入:
<property>
<name>http.agent.name</name>
<value>myfirsttest</value>《=================================必填项,否则会搜索无结果。copy后注意要删除这条注释
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value>myfirsttest</value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value>myfirsttest.com</value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>test@test.com</value>
<description></description>
</property>
<property>
<name>searcher.dir</name>
<value>G:\nutch-1.0\crawled</value>《=================================指向crawled文件夹的路径。copy后注意要删除这条注释
<description></description>
</property>
<property>
<name>fetcher.max.crawl.delay</name>
<value>30</value>>《=================================页面有效期30天。copy后注意要删除这条注释
<description></description>
</property>
3、抓取过程:
命令 bin/nutch crawl urls -dir crawled -threads 5 -depth 100 -topN 1000000 >& logs/crawl.log
通过cygwin来实现抓取,每次进入cygwin后,需要输入export LANG="zh_CN.GBK",否则抓取时会报IOException, job Faild 的异常。详情:http://wenku.baidu.com/view/70968e4cf7ec4afe04a1df56.html?from=related&hasrec=1
及时测试,如
bin/nutch org.apache.nutch.searcher.NutchBean apache
注:nutch命令详解http://hi.baidu.com/867862605/blog/item/bf65f51898460105403417c0.html
4、部署过程
将nutch-1.0下的war包拖到tomcat下的webapp下。运行tomcat,会将war包解压成nutch-1.0
在此nutch-1.0下修改一个文件:WEB-INF>>classes>>nutch-site.xml
<configuration></configuration>中加入:
<property>
<name>searcher.dir</name>
<value>G:\nutch-1.0\crawled</value>《=====================================一样啊
<description></description>
</property>
再来修改tomcat的server.xml,用来处理中文乱码的。刚才的链接里面有介绍:http://wenku.baidu.com/view/70968e4cf7ec4afe04a1df56.html?from=related&hasrec=1
5、检测过程
这个最简单,就是测试你的nutch了。在http://localhost:8080/nutch-1.0/下输入关键字,看是否有记录,没有就需要好好检查了。
如果你比较细心,就会发现其实nutch的分页做得不好,处理方法请看:/article/10900550.html
1、下载资源
2、安装过程
3、抓取过程
4、部署过程
5、检测过程
进入正题:
1、下载资源:
cygwin:http://cygwin.com/install.html,setup.exe
nutch-0.9:http://115.com/file/behqez1a (太难找了)
nutch-1.0:http://115.com/file/anq4fh8t
nutch-1.2:http://115.com/file/dpny2r6s
nutch-1.4:http://labs.renren.com/apache-mirror/nutch/
相信使用nutch的人都已经装了jdk、tomcat。
2、安装过程:
cygwin安装:
http://apps.hi.baidu.com/share/detail/30458811,全部安装后,9.4G,准备好足够的空间
nutch的安装:(1.3一下版本,1.3以上请看:http://hi.baidu.com/haininghacker/blog/item/dd91173c08e882d89f3d6285.html#0)
主要是配置,将刚才的下载gz包解压到某个地方,如g:\nutch-1.0
A) nutch-1.0下建一个logs文件夹,目的是为了爬的时候记录日志到其中
B) nutch-1.0下建一个crawled文件夹,目的是爬到的页面建索引到这个目录,至关重要!
C) nutch-1.0下新建一个txt,放入网址,如http://www.apache.org/,取名urls.txt。[注意:网址最后一个/必须要,否则会不抓网页],如有多个网址用换行隔开就行
D) nutch-1.0》conf下crawl-urlfilter.txt,修改倒数第三行和第四行,如
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*apache.org/
可以再在下面加其他的网址,当然最简单就是+^http://([a-z0-9]*\.)*就行了
这里需要注意一点,如果需要抓动态网页,还需要修改其中的一行,具体详见:http://www.blogjava.net/kxx129/archive/2010/04/24/319280.html
E) nutch-1.0》conf下nutch-site.xml,<configuration></configuration>中加入:
<property>
<name>http.agent.name</name>
<value>myfirsttest</value>《=================================必填项,否则会搜索无结果。copy后注意要删除这条注释
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value>myfirsttest</value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value>myfirsttest.com</value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>test@test.com</value>
<description></description>
</property>
<property>
<name>searcher.dir</name>
<value>G:\nutch-1.0\crawled</value>《=================================指向crawled文件夹的路径。copy后注意要删除这条注释
<description></description>
</property>
<property>
<name>fetcher.max.crawl.delay</name>
<value>30</value>>《=================================页面有效期30天。copy后注意要删除这条注释
<description></description>
</property>
3、抓取过程:
命令 bin/nutch crawl urls -dir crawled -threads 5 -depth 100 -topN 1000000 >& logs/crawl.log
通过cygwin来实现抓取,每次进入cygwin后,需要输入export LANG="zh_CN.GBK",否则抓取时会报IOException, job Faild 的异常。详情:http://wenku.baidu.com/view/70968e4cf7ec4afe04a1df56.html?from=related&hasrec=1
及时测试,如
bin/nutch org.apache.nutch.searcher.NutchBean apache
注:nutch命令详解http://hi.baidu.com/867862605/blog/item/bf65f51898460105403417c0.html
4、部署过程
将nutch-1.0下的war包拖到tomcat下的webapp下。运行tomcat,会将war包解压成nutch-1.0
在此nutch-1.0下修改一个文件:WEB-INF>>classes>>nutch-site.xml
<configuration></configuration>中加入:
<property>
<name>searcher.dir</name>
<value>G:\nutch-1.0\crawled</value>《=====================================一样啊
<description></description>
</property>
再来修改tomcat的server.xml,用来处理中文乱码的。刚才的链接里面有介绍:http://wenku.baidu.com/view/70968e4cf7ec4afe04a1df56.html?from=related&hasrec=1
5、检测过程
这个最简单,就是测试你的nutch了。在http://localhost:8080/nutch-1.0/下输入关键字,看是否有记录,没有就需要好好检查了。
如果你比较细心,就会发现其实nutch的分页做得不好,处理方法请看:/article/10900550.html
相关文章推荐
- Windows环境下Python使用pip安装部分包出现错误的解决方案
- windows环境下安装及使用redis
- Windows环境使用Cygwin安装Hadoop(亲测可用)
- Windows环境下首次安装与使用MYSQL数据库
- Windows环境的GNU安装以及使用makefile编译生成*.exe
- 在windows下使用Cygwin模拟unix环境,并安装apt-cyg,repo等工具
- Windows环境下Qwt安装和使用
- Nutch安装配置详细指南(Windows环境)
- 在Windows的Visual Studio环境中安装与使用CLAPACK
- zookeeper安装和使用 windows环境+dubbo管理控制台的安装 【以及】 tomcat启动配置
- Python(1)windows上搭建Ubuntu环境安装,使用ide:pycharm coding
- 如何在 windows 10 环境下 使用 composer 安装 laravel
- Windows环境下Anaconda和selenium库安装使用
- windows环境下安装类似liunx命令行工具和os上安装brew命令行工具 及简单使用
- python基础===Windows环境下使用pip install 安装出错"Cannot unpack file"解决办法
- windows环境下安装mongodb以及nosql使用
- GSL安装使用方法MinGW 、 VC、Borland C++ Builder、Windows开发环境下的使用
- Windows环境下SVN配置管理工具安装使用指南
- windows下nutch1.0环境搭建及测试