Heritrix3.0教程 使用入门(一) 下载安装与运行
2012-04-07 22:31
1026 查看
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.html
Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.
1.下载,下载地址:http://sourceforge.net/projects/archive-crawler/files/heritrix3/.下载后的截图为
这里大家可以看下README.TXT文件.这里面有对Heritrix基本的介绍.
2.下面开始使用Heritrix3.0.0
进入CMD(开始->运行),进入Heritrix3.0.0所在目录,我这里是D:/heritrix/heritrix3.0.0/bin,这里大家截图也可以看到.输入以下命令:heritrix -a admin:admin,这里会跳出一个cmd,截图如下:
就表示你已经启动Heririx成功,然后在浏览器里输入,https://localhost:8443(注意,是https,不是http).由于Heritrix3.0.0已通过https登录,用户名跟密码就是以上输入的admin:admin.所以不同于早期版本,我这里用的是火狐浏览器,界面可能如下
ie等可能不一样.然后点击我已充分了解可能的风险,点添加例外,再输入用户名跟密码,也就是刚才的admin,admin后,便可以进入Heritrix3.0.0 web界面了.大概如下:
出现以上界面,就表示你可以使用Heritrix去抓取数据了,但这里还需配置Job,也就是抓取任务.
这里先大概介绍下界面:
Memory 表示内存使用情况
Jobs Directory:表示抓取job目录,默认是Heritrix_home/jobs
rescan按钮表示扫描jobs目录,目录有改动,也就是抓取任务有增加或者删除,这里则都会显示
create按钮表示创建一个Job
add按钮表示添加一个已经存在的job,这里是输入这个job所在的路径
好了,这里基本上可以下载并使用Heririx了.下一篇则介绍如何配置CrawlJob,也就是抓取任务去抓取数据.
Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.
1.下载,下载地址:http://sourceforge.net/projects/archive-crawler/files/heritrix3/.下载后的截图为
这里大家可以看下README.TXT文件.这里面有对Heritrix基本的介绍.
2.下面开始使用Heritrix3.0.0
进入CMD(开始->运行),进入Heritrix3.0.0所在目录,我这里是D:/heritrix/heritrix3.0.0/bin,这里大家截图也可以看到.输入以下命令:heritrix -a admin:admin,这里会跳出一个cmd,截图如下:
就表示你已经启动Heririx成功,然后在浏览器里输入,https://localhost:8443(注意,是https,不是http).由于Heritrix3.0.0已通过https登录,用户名跟密码就是以上输入的admin:admin.所以不同于早期版本,我这里用的是火狐浏览器,界面可能如下
ie等可能不一样.然后点击我已充分了解可能的风险,点添加例外,再输入用户名跟密码,也就是刚才的admin,admin后,便可以进入Heritrix3.0.0 web界面了.大概如下:
出现以上界面,就表示你可以使用Heritrix去抓取数据了,但这里还需配置Job,也就是抓取任务.
这里先大概介绍下界面:
Memory 表示内存使用情况
Jobs Directory:表示抓取job目录,默认是Heritrix_home/jobs
rescan按钮表示扫描jobs目录,目录有改动,也就是抓取任务有增加或者删除,这里则都会显示
create按钮表示创建一个Job
add按钮表示添加一个已经存在的job,这里是输入这个job所在的路径
好了,这里基本上可以下载并使用Heririx了.下一篇则介绍如何配置CrawlJob,也就是抓取任务去抓取数据.
相关文章推荐
- EtherPeek NX 3.0下载安装破解及使用详细图文教程
- Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍
- phpMyAdmin下载、安装和使用入门教程
- Heritrix3.0教程 使用入门(四) 载入种子的四种方式
- 我的美丽天使(My Fair Angel)入门经典教程(下载 安装 汉化 使用)
- PyCharm 2017 官网 下载 安装 设置 配置 (主题 字体 字号) 使用 入门 教程
- PyCharm 2017 官网 下载 安装 设置 配置 (主题 字体 字号) 使用 入门 教程
- 我的美丽天使(My Fair Angel)入门经典教程(下载 安装 汉化 使用)
- phpMyAdmin下载、安装和使用入门教程
- phpMyAdmin下载、安装和使用入门教程
- phpMyAdmin下载、安装和使用入门教程
- Heritrix3.0教程 使用入门(二) 开始抓取
- Windows下MySQL下载与安装、配置与使用教程
- Docker安装和简单使用入门教程
- Scrapy爬虫入门教程一 安装和基本使用
- Flash Media Server安装与使用入门教程
- MyEclipse 6 实战开发讲解视频入门 0: 下载 安装 运行 HelloWorld
- 【OpenCV入门教程之一】 安装OpenCV:OpenCV 3.0、OpenCV 2.4.8、OpenCV 2.4.9 +VS 开发环境配置
- win10升级助手下载安装使用教程
- 【OpenCV入门教程之一】 安装OpenCV:OpenCV 3.0、OpenCV 2.4.8、OpenCV 2.4.9 +VS 开发环境配置