您的位置:首页 > 其它

[网摘]Nutch的工作流程

2011-05-11 13:04 190 查看
Nutch的工作流程:
1. 创建一个新的WebDB (admin db -create)。
2. 把开始抓取的跟Url 放入WebDb (inject)。
3. 从WebDb的新 segment 中生成 fetchlist (generate)。
4. 根据 fetchlist 列表抓取网页的内容 (fetch)。
5. 根据抓取回来的网页链接url更新 WebDB (updatedb)。
6. 重复上面3-5个步骤直到到达指定的抓取层数。
7. 用计算出来的网页url权重 scores 更新 segments (updatesegs)。
8. 对抓取回来的网页建立索引(index)。
9. 在索引中消除重复的内容和重复的url (dedup)。
10. 合并多个索引到一个大索引,为搜索提供索引库(merge)。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: