您的位置:首页 > 其它

爬虫 Heritrix 学习笔记 —— Heritrix安装与简单配置

2014-03-29 15:46 507 查看

Heritrix安装与简单配置       

        由于项目需要,需要利用爬虫在互联网上爬取数据,在 Nutch 与 Heritrix 之间选择了 Heritrix,前段时间自己写了一个爬虫,效率太低了,不过对于爬虫的基本情况已经心中有算,现在利用别人写的爬虫,而且是经过考验的,自然效率会比自己写的高很多。至于 Nutch 与 Heritrix 的比较就暂不讨论了。

第一步:选择版本并下载(http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20(heritrix%201.x)/)。

            目前 git上已经有 3 以上的版本了,考虑到目前只是学习,所以先拿官网上最新的1.14版本下载安装,下面是我下载的文件

$ ll
总用量 28676
drwxrwxr-x  2 clebeg clebeg     4096  3月 29 14:59 ./
drwxr-xr-x 15 clebeg clebeg     4096  3月 26 09:44 ../
-rw-r--r--  1 clebeg clebeg 10443109  3月 23 09:31 heritrix-1.14.4-src.tar.gz  //原文件
-rw-rw-r--  1 clebeg clebeg 18835284  3月 23 09:06 heritrix-1.14.4.tar.gz      //二进制文件


第二步:解压二进制文件到指定目录

clebeg@clebeg:~/mydownload/spider$ tar -xzvf heritrix-1.14.4.tar.gz -C yourdir
注意:-C 参数后的路径必须存在,否则无法解压
$ ll
总用量 1524
drwxr-xr-x 7 clebeg clebeg    4096  5月  6  2010 ./
drwxrwxr-x 3 clebeg clebeg    4096  3月 29 15:10 ../
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 bin/
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 conf/
drwxr-xr-x 8 clebeg clebeg    4096  3月 29 15:10 docs/
-rw-r--r-- 1 clebeg clebeg 1497036  5月  6  2010 heritrix-1.14.4.jar
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 lib/
-rw-r--r-- 1 clebeg clebeg   26985  5月  6  2010 LICENSE.txt
-rw-r--r-- 1 clebeg clebeg    2664  5月  6  2010 README.txt
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 webapps/


第三步:配置爬虫 Heritrix

1)为了方便操作爬虫,首先设置环境变量,修改 ~/.bashrc,增加如下环境变量#set Heritrix home

HERITRIX_HOME=/home/clebeg/software/Heritrix/heritrix-1.14.4

PATH=$HERITRIX_HOME/bin:$PATH

CLASSPATH=$HERITRIX_HOME/lib/*:$CLASSPATH

export HERITRIX_HOME

export PATH
export CLASSPATH

2)先解压heritrix-1.14.4.jar$ jar -xf heritrix-1.14.4.jar

3)解压之后的目录结构

drwxrwxr-x 8 clebeg clebeg 4096 3月 29 15:30 ./

drwxr-xr-x 14 clebeg clebeg 4096  3月 29 15:16 ../

-rw-rw-r--  1 clebeg clebeg  8419  5月  6  2010 arcMetaheaderBody.xsl

-rw-rw-r--  1 clebeg clebeg 58340  5月  6  2010 effective_tld_names.dat

-rw-rw-r--  1 clebeg clebeg 10147  5月  6  2010 heritrix.properties

-rw-rw-r--  1 clebeg clebeg  1078  5月  6  2010 jndi.propertiesd

rwxrwxr-x  2 clebeg clebeg  4096  5月  6  2010 META-INF/

drwxrwxr-x  2 clebeg clebeg  4096  5月  6  2010 modules/

drwxrwxr-x  4 clebeg clebeg  4096  5月  6  2010 org/

drwxrwxr-x  3 clebeg clebeg  4096  5月  6  2010 profiles/

drwxrwxr-x  2 clebeg clebeg  4096  5月  6  2010 selftest/

drwxrwxr-x  3 clebeg clebeg  4096  5月  6  2010 st/

4)然后拷贝解压之后的文件夹profiles/default 下面的 order.xml  seeds.txt 到爬虫第一层目录的conf/下面$cp profiles/default/* $HERITRIX_HOME/conf

5)用 vim 打开 $HERITRIX_HOME/conf/heritrix.properties(这是web接口登录的账户名与密码)修改 heritrix.cmdline.admin = username:password

6)复制 $HERITRIX_HOME/conf 下面的 jmxremote.password.template 到 $HERITRIX 下面,然后改名字为 jmxremote.password, 用 vim 打开此文件,将 monitoRole 与 controlRole 后面的大写 PASSWORD 全部改成管理员密码。

7)启动 Heritrix: heritrix --admin=username:password 如果无法启动那么就将 $HERITRIX/bin 下面的文件赋予执行的权限 

第四步:启动界面展示



内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: