您的位置:首页 > 其它

nutch 执行流程以及简介

2017-08-22 15:57 141 查看
    
Nutch体系流程图:

    


    第一步:generator差生抓取列表,在generator产生抓取列表的过程中,会生成crawl_generator文件夹。

    第二步:fetcher 从网上抓取网页,生成crawl_fetch以及content,content抓取下来的网页的源代码二进制的内容,crawl_fetch,每一个抓取URL的状态。

    第三步:对抓取得网页进行解析,生成crawl_parse,爬取解析的状态,parse_data,parse_test

    第四步:把抓取的URL 状态写会Crawl Db 数据库

    linkdb :对链接进行分析。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐