[网摘]Nutch的工作流程
2011-05-11 13:04
190 查看
Nutch的工作流程:
1. 创建一个新的WebDB (admin db -create)。
2. 把开始抓取的跟Url 放入WebDb (inject)。
3. 从WebDb的新 segment 中生成 fetchlist (generate)。
4. 根据 fetchlist 列表抓取网页的内容 (fetch)。
5. 根据抓取回来的网页链接url更新 WebDB (updatedb)。
6. 重复上面3-5个步骤直到到达指定的抓取层数。
7. 用计算出来的网页url权重 scores 更新 segments (updatesegs)。
8. 对抓取回来的网页建立索引(index)。
9. 在索引中消除重复的内容和重复的url (dedup)。
10. 合并多个索引到一个大索引,为搜索提供索引库(merge)。
1. 创建一个新的WebDB (admin db -create)。
2. 把开始抓取的跟Url 放入WebDb (inject)。
3. 从WebDb的新 segment 中生成 fetchlist (generate)。
4. 根据 fetchlist 列表抓取网页的内容 (fetch)。
5. 根据抓取回来的网页链接url更新 WebDB (updatedb)。
6. 重复上面3-5个步骤直到到达指定的抓取层数。
7. 用计算出来的网页url权重 scores 更新 segments (updatesegs)。
8. 对抓取回来的网页建立索引(index)。
9. 在索引中消除重复的内容和重复的url (dedup)。
10. 合并多个索引到一个大索引,为搜索提供索引库(merge)。
相关文章推荐
- 转:cygwin简单应用及Nutch之Crawler工作流程
- Nutch爬虫工作流程及文件格式详细分析
- Nutch工作流程
- nutch的基本工作流程理解
- 分析Nutch的工作流程
- nutch的基本工作流程理解
- 爬虫调研II:Nutch的工作流程和扩展性
- Nutch爬虫工作流程
- Nutch 一般工作流程
- Nutch1.7学习笔记2:基本工作流程分析
- Nutch工作流程-说明性文档
- Nutch爬虫工作流程及文件格式详细分析
- 爬虫调研II:Nutch的工作流程和扩展性
- Nutch工作流程
- Nutch爬虫工作流程及文件格式详细分析
- Nutch爬虫工作流程及文件格式详细分析
- Android Wifi的工作流程
- Android 4.4 Kitkat Phone工作流程浅析(一)__概要和学习计划
- android telephony 工作流程(三)--UICC CARD & APP 更新
- 【Scrapy-01】安装、创建项目、创建爬虫、简单爬取百度title的例子以及工作流程简介