nutch爬虫流程
2008-03-01 13:15
183 查看
Nutch的输出文件(不包括临时文件)主要可分为crawldb、index、indexs、linkdb和segments。
Crawldb
Crawldb是所有需要抓取的超连接信息
Segments
Segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6种content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容;crawl_generate最初生成;crawl_fetch、content在抓取时生成;crawl_parse、parse_data、parse_text在解析抓取的数据文件时生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url数据,它们格式一样,不同的是抓取时间、状态、签名等有所变化。格式如下:
////////////////////crawl_generate、crawl_fetch、crawl_parse、crawldb的格式//////////////
http://www.163.com/ Version: 4
Status: 5 (fetch_success)
Fetch time: Thu Oct 26 19:20:33 CST 2006
Modified time: Thu Jan 01 08:00:00 CST 1970
Retries since fetch: 0
Retry interval: 30.0 days
Score: 1.0
Signature: 3029c621e26c43797241a8d34980b2dc
Metadata: null
parse_data的格式如下:
……
outlink: toUrl: http://cha.so.163.com/so.php?key=001001006&q=%CA%D6%BB%FA anchor: 手机
Content Metadata: nutch.crawl.score=1.0 nutch.content.digest=3029c621e26c43797241a8d34980b2dc Content-Type=text/html;
charset=GB2312 date=Thu, 26 Oct 2006 11:20:33 GMT Cache-Control=max-age=146
Content-Encoding=gzip Content-Length=19628 Connection=close Expires=Thu, 26
Oct 2006 11:23:00 GMT nutch.segment.name=20061026192026 Accept-Ranges=bytes
Server=Apache/2.0.55 (Unix) X-Cache=HIT from www.163.com Vary=Accept-Encoding
Parse Metadata: OriginalCharEncoding=GB2312 CharEncodingForConversion=GB2312
parse_text是网页的文本信息。
Index
据初步分析index由indexs合并而来的,存放的是索引信息。在非分布式搜索时优先根据查找index文件夹,如果不存在则查找indexs。
Linkdb
Linkdb中存放的是所有超连接及其每个连接的连入地址和锚文本。读取出来的格式如下:
http://tech.163.com/06/1025/18/2UA64IC300091537.html Inlinks:
fromUrl: http://tech.163.com/discover/ anchor:
fromUrl: http://tech.163.com/discover/ anchor: 蟒蛇鳄鱼颠峰对决
……
Crawldb
Crawldb是所有需要抓取的超连接信息
Segments
Segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6种content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容;crawl_generate最初生成;crawl_fetch、content在抓取时生成;crawl_parse、parse_data、parse_text在解析抓取的数据文件时生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url数据,它们格式一样,不同的是抓取时间、状态、签名等有所变化。格式如下:
////////////////////crawl_generate、crawl_fetch、crawl_parse、crawldb的格式//////////////
http://www.163.com/ Version: 4
Status: 5 (fetch_success)
Fetch time: Thu Oct 26 19:20:33 CST 2006
Modified time: Thu Jan 01 08:00:00 CST 1970
Retries since fetch: 0
Retry interval: 30.0 days
Score: 1.0
Signature: 3029c621e26c43797241a8d34980b2dc
Metadata: null
parse_data的格式如下:
……
outlink: toUrl: http://cha.so.163.com/so.php?key=001001006&q=%CA%D6%BB%FA anchor: 手机
Content Metadata: nutch.crawl.score=1.0 nutch.content.digest=3029c621e26c43797241a8d34980b2dc Content-Type=text/html;
charset=GB2312 date=Thu, 26 Oct 2006 11:20:33 GMT Cache-Control=max-age=146
Content-Encoding=gzip Content-Length=19628 Connection=close Expires=Thu, 26
Oct 2006 11:23:00 GMT nutch.segment.name=20061026192026 Accept-Ranges=bytes
Server=Apache/2.0.55 (Unix) X-Cache=HIT from www.163.com Vary=Accept-Encoding
Parse Metadata: OriginalCharEncoding=GB2312 CharEncodingForConversion=GB2312
parse_text是网页的文本信息。
Index
据初步分析index由indexs合并而来的,存放的是索引信息。在非分布式搜索时优先根据查找index文件夹,如果不存在则查找indexs。
Linkdb
Linkdb中存放的是所有超连接及其每个连接的连入地址和锚文本。读取出来的格式如下:
http://tech.163.com/06/1025/18/2UA64IC300091537.html Inlinks:
fromUrl: http://tech.163.com/discover/ anchor:
fromUrl: http://tech.163.com/discover/ anchor: 蟒蛇鳄鱼颠峰对决
……
相关文章推荐
- Nutch爬虫工作流程及文件格式详细分析
- 爬虫调研II:Nutch的工作流程和扩展性
- Nutch爬虫工作流程及文件格式详细分析
- 爬虫调研II:Nutch的工作流程和扩展性
- Nutch爬虫运行流程分析
- 【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析 分类: H3_NUTCH 2014-06-04 20:10 1039人阅读 评论(0) 收藏
- Nutch爬虫工作流程及文件格式详细分析
- Nutch爬虫工作流程
- Nutch爬虫工作流程及文件格式详细分析
- Scrapy爬虫笔记【2-基本流程】
- 基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
- Nutch 2.0 之 抓取流程简单分析
- (转载)Nutch 2.0 之 抓取流程简单分析
- Apache网络爬虫框架nutch安装教程
- JAVA爬虫Nutch、WebCollector的正则约束
- 【架构】基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
- 从Nutch的输出日志分析其流程
- nutch爬取内容分析和爬取流程命令实现
- 开发一款开源爬虫框架系列(一):分析nutch,scrapy的爬虫设计
- Nutch1.2+Tomcat7.0+Cygwin网页爬虫工具搭建