爬虫 Heritrix 学习笔记 —— Heritrix安装与简单配置
2014-03-29 15:46
507 查看
Heritrix安装与简单配置
由于项目需要,需要利用爬虫在互联网上爬取数据,在 Nutch 与 Heritrix 之间选择了 Heritrix,前段时间自己写了一个爬虫,效率太低了,不过对于爬虫的基本情况已经心中有算,现在利用别人写的爬虫,而且是经过考验的,自然效率会比自己写的高很多。至于 Nutch 与 Heritrix 的比较就暂不讨论了。第一步:选择版本并下载(http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20(heritrix%201.x)/)。
目前 git上已经有 3 以上的版本了,考虑到目前只是学习,所以先拿官网上最新的1.14版本下载安装,下面是我下载的文件
$ ll 总用量 28676 drwxrwxr-x 2 clebeg clebeg 4096 3月 29 14:59 ./ drwxr-xr-x 15 clebeg clebeg 4096 3月 26 09:44 ../ -rw-r--r-- 1 clebeg clebeg 10443109 3月 23 09:31 heritrix-1.14.4-src.tar.gz //原文件 -rw-rw-r-- 1 clebeg clebeg 18835284 3月 23 09:06 heritrix-1.14.4.tar.gz //二进制文件
第二步:解压二进制文件到指定目录
clebeg@clebeg:~/mydownload/spider$ tar -xzvf heritrix-1.14.4.tar.gz -C yourdir
注意:-C 参数后的路径必须存在,否则无法解压
$ ll 总用量 1524 drwxr-xr-x 7 clebeg clebeg 4096 5月 6 2010 ./ drwxrwxr-x 3 clebeg clebeg 4096 3月 29 15:10 ../ drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 bin/ drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 conf/ drwxr-xr-x 8 clebeg clebeg 4096 3月 29 15:10 docs/ -rw-r--r-- 1 clebeg clebeg 1497036 5月 6 2010 heritrix-1.14.4.jar drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 lib/ -rw-r--r-- 1 clebeg clebeg 26985 5月 6 2010 LICENSE.txt -rw-r--r-- 1 clebeg clebeg 2664 5月 6 2010 README.txt drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 webapps/
第三步:配置爬虫 Heritrix
1)为了方便操作爬虫,首先设置环境变量,修改 ~/.bashrc,增加如下环境变量#set Heritrix home
HERITRIX_HOME=/home/clebeg/software/Heritrix/heritrix-1.14.4
PATH=$HERITRIX_HOME/bin:$PATH
CLASSPATH=$HERITRIX_HOME/lib/*:$CLASSPATH
export HERITRIX_HOME
export PATH
export CLASSPATH
2)先解压heritrix-1.14.4.jar$ jar -xf heritrix-1.14.4.jar
3)解压之后的目录结构
drwxrwxr-x 8 clebeg clebeg 4096 3月 29 15:30 ./
drwxr-xr-x 14 clebeg clebeg 4096 3月 29 15:16 ../
-rw-rw-r-- 1 clebeg clebeg 8419 5月 6 2010 arcMetaheaderBody.xsl
-rw-rw-r-- 1 clebeg clebeg 58340 5月 6 2010 effective_tld_names.dat
-rw-rw-r-- 1 clebeg clebeg 10147 5月 6 2010 heritrix.properties
-rw-rw-r-- 1 clebeg clebeg 1078 5月 6 2010 jndi.propertiesd
rwxrwxr-x 2 clebeg clebeg 4096 5月 6 2010 META-INF/
drwxrwxr-x 2 clebeg clebeg 4096 5月 6 2010 modules/
drwxrwxr-x 4 clebeg clebeg 4096 5月 6 2010 org/
drwxrwxr-x 3 clebeg clebeg 4096 5月 6 2010 profiles/
drwxrwxr-x 2 clebeg clebeg 4096 5月 6 2010 selftest/
drwxrwxr-x 3 clebeg clebeg 4096 5月 6 2010 st/
4)然后拷贝解压之后的文件夹profiles/default 下面的 order.xml seeds.txt 到爬虫第一层目录的conf/下面$cp profiles/default/* $HERITRIX_HOME/conf
5)用 vim 打开 $HERITRIX_HOME/conf/heritrix.properties(这是web接口登录的账户名与密码)修改 heritrix.cmdline.admin = username:password
6)复制 $HERITRIX_HOME/conf 下面的 jmxremote.password.template 到 $HERITRIX 下面,然后改名字为 jmxremote.password, 用 vim 打开此文件,将 monitoRole 与 controlRole 后面的大写 PASSWORD 全部改成管理员密码。
7)启动 Heritrix: heritrix --admin=username:password 如果无法启动那么就将 $HERITRIX/bin 下面的文件赋予执行的权限
第四步:启动界面展示
相关文章推荐
- 【学习笔记】coreseek(sphinx)搜索引擎的安装及简单配置
- Python爬虫学习笔记(一)环境配置与包的安装
- Rancher 学习笔记(一) Rancher安装及简单配置
- CentOS 6.4 i386的学习笔记-003 vsftp 的安装与简单配置
- 学习笔记之Vmware中linux的安装(下)linux安装及配置
- OpenCV(学习笔记2)-安装和环境配置
- OpenGL4.x 学习笔记:安装&配置 - preparation
- Android 学习笔记-eclipse下ButterKnife配置和简单使用
- Kafka学习笔记——centos7下kafka安装配置与验证
- redis 学习笔记一,安装配置
- Hibernate 3学习笔记 - 简单的Hibernate配置文件
- OpenCV学习笔记--安装与配置
- Spring Boot学习笔记-项目属性的简单配置
- Proxmox VE2.2虚拟化安装配置学习笔记(四)
- 第四章学习笔记 Tomcat服务器的安装及配置
- heritrix 下载、安装、配置、以及简单开发
- Maven学习笔记一:Maven的安装配置
- PHP学习笔记 IIS7下安装配置php环境
- hadoop学习笔记之zookeeper 安装配置
- Python Web 开发 学习笔记1 安装配置 python+django