您的位置:首页 > 其它

Nutch 学习笔记2 - 查看抓取的文件

2015-11-10 12:36 218 查看
http://z60014840.blog.163.com/blog/static/36372889201332085636597/

查看抓取后的文件夹
ls data -- 有3个文件夹
crawldb linkdb segments

ls data/crawldb -- 有2个文件夹:current old。其中old 做冗余备份

ls data/crawldb/current/ -- part-00000 ,由hadoop reduce 生成的文件夹

ls data/crawldb/current/part-00000/
-- data, index 。数据存储在data,index是对data中数据的一个索引

du -h data/crawldb/current/part-00000/
-- 查看文件夹part-00000的大小

du -h data/crawldb/current/part-00000/*
-- 查看文件夹part-00000中每个文件的大小

vi data/crawldb/current/part-00000/data -- 二进制文件

bin/nutch | grep read -- 查看文件的命令
readdb read / dump crawl db
readlinkdb read / dump link db
readseg read / dump segment data

ls data -- 3个read 命令分别对应3个文件夹
crawldb linkdb segments

bin/nutch readdb
Usage: CrawlDbReader <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)
其中, CrawlDbReader 表示命令使用的java类。
bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump -- 二进制文件导出为文本文件
ls data/crawldb/crawldb_dump/
vi data/crawldb/crawldb_dump/part-00000
:/db_fetched -- 查找一个抓取过的路径,如:http://bj.tianya.cn/
bin/nutch readdb data/crawldb -url http://bj.tianya.cn/ -- 查看指定URL信息
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN
-- 提取指定条数数据到某一个目录
vi data/crawldb/crawldb_topN/part-00000 -- 显示了10行URL, 第1列为分值
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN 1 -- 最后1个参数为最小分值限制
会抛出异常,需要更换一个目录
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN_min 1 -- 显示分值大于等于1的URL
vi data/crawldb/crawldb_topN_min/part-00000

ls data/segments/
-- 每执行一轮抓取,都会生成一个文件夹,以当前时间命名
ls data/segments/20130418224204
content crawl_fetch crawl_generate crawl_parse parse_data parse_text
bin/nutch readseg
Usage: SegmentReader -dump <segment_dir> <output> [general options]
-nocontent ignore content directory
-nofetch ignore crawl_fetch directory
-nogenerate ignore crawl_generate directory
-noparse ignore crawl_parse directory
-noparsedata ignore parse_data directory
-noparsetext ignore parse_text directory
bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump -nocontent -nofetch -noparse -noparsedata -noparsetext
-- 只输出generate
ls data/segments/20130418224204_dump -- 只有1个文件:dump
vi data/segments/20130418224204_dump/dump -- 第1次抓取只有1个URL

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_fetch -nocontent -nogenerate -noparse -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_fetch/dump

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_content -nofetch -nogenerate -noparse -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_content/dump -- 抓取到的HTML源代码

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容,因为抓取的网页,被重定向到其它页面上了

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparse -noparsetext
vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparse -noparsedata
vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容

bin/nutch readseg
* SegmentReader -list (<segment_dir1> ... | -dir <segments>) [general options]

bin/nutch readseg -list -dir data/segments/
bin/nutch readseg -list data/segments/20130418224204
bin/nutch readseg -get data/segments/20130418224204 http://blog.tianya.cn/ -- 最后一个参数为特定的URL,注意:最后要有一个反斜杠。查看指定URL的抓取信息

bin/nutch readlinkdb
Usage: LinkDbReader <linkdb> (-dump <out_dir> | -url <url>)
-dump <out_dir> dump whole link db to a text file in <out_dir>
-url <url> print information about <url> to System.out

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump
-- 以文本方式查看
ls data/linkdb_dump
vi data/linkdb_dump/part-00000 -- 没有缩进的为特定的key RUL

bin/nutch readlinkdb data/linkdb -url http://apps.tianya.cn/ -- 查看指定的URL

bin/nutch readlinkdb data/linkdb -url http://apps.tianya.cn/ | wc -l
-- 统计条数
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: