Nutch 一般工作流程
2014-04-09 17:26
148 查看
sequence of batch operations
1. inject -> populates CrawlDB from seed list
2. Generate -> Selets URLS to fetch in segment
3. Fetch -> Fetches URLs from segment
4. Parse -> Parses content(text + metadata)
5. UpdateDB -> Updates CroawlDB(new URLs, new status...)
6. InvertLinks -> Build Webgraph
7. SOLR Index -> Send docs to SOLR
8. SOLR Dedup -> Remove duplicate docs based on signature
Repeat steps 2 to 8
Or use the all-in-one crawl script
1. inject -> populates CrawlDB from seed list
2. Generate -> Selets URLS to fetch in segment
3. Fetch -> Fetches URLs from segment
4. Parse -> Parses content(text + metadata)
5. UpdateDB -> Updates CroawlDB(new URLs, new status...)
6. InvertLinks -> Build Webgraph
7. SOLR Index -> Send docs to SOLR
8. SOLR Dedup -> Remove duplicate docs based on signature
Repeat steps 2 to 8
Or use the all-in-one crawl script
相关文章推荐
- nutch的基本工作流程理解
- Nutch爬虫工作流程及文件格式详细分析
- Nutch工作流程-说明性文档
- 爬虫调研II:Nutch的工作流程和扩展性
- 使用Git工作的一般流程
- 爬虫调研II:Nutch的工作流程和扩展性
- Nutch爬虫工作流程及文件格式详细分析
- Nutch工作流程
- 分析Nutch的工作流程
- Nutch爬虫工作流程及文件格式详细分析
- Nutch爬虫工作流程及文件格式详细分析
- 使用Git工作的一般流程
- [网摘]Nutch的工作流程
- nutch的基本工作流程理解
- Git工作的一般流程
- Git工作的一般流程
- 转:cygwin简单应用及Nutch之Crawler工作流程
- 机器学习入门报告之 解决问题一般工作流程
- Nutch工作流程
- Nutch1.7学习笔记2:基本工作流程分析