标签:
在上一篇博文里面对nutch爬虫在抓取数据的时候产生的目录进行的说明,那么这写目录文件里面的内容如何才能查看呢?本篇博文将详细为你介绍查看具体内容的方法。
我们先来看下nutch相关的命令:
从上图我们可以知道,nutch提供了很多命令帮助我们来了解当前的情况。
主要用于read/dump crawl db。而readdb也有很多参数可以选择:
(1)-stats
使用-stats来看出具体的状态:
从这个统计信息可以看到:
(2)-dump
使用dump参数可以查看整个数据库。执行如下命令:
bin/nutch readdb data/crawldb -dump data/crawldb/crawl_dump
执行此命令之后会生成一个文本文件:
其中的内容大致如下:
主要存储的就是url以及其状态和相关的信息。
(3)-url
打印具体url的情况。
(4)-topN
把制定数目的url根据分值进行排序。
也会生成一个文件:part_0000,其内容如下:
主要用于查看segments目录下面子目录里面的内容。参数如下:
(1)-dump
查看对应的文本内容。
bin/nutch readseg -dump data/segments/20160423200417/ data/segments/20160423200417_dump -nocontent -nogenerate -noparse -noparsedata -noparsetext
(2)-list
使用如下的命令:
bin/nutch readseg -list -dir data/segments
结果如下:
(3)-get
查看segment中某一特定URL的状况,输入所有和他相关的内容。使用如下命令:
bin/nutch readseg -get data/segments/20160423200417 http://blog.tianya.cn/
结果如下:
读取linkdb里面的数据。相关参数如下:
(1)-dump
dump出相关的内容。命令:
bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump
运行之后会生成一个文本文件part-0000:
part-0000的具体内容如下:
(2)-url
查看具体url相关信息,命令如下:
bin/nutch readlinkdb data/linkdb -url http://bbs.tianya.cn/list-1018-1.shtml
输出结果如下:
到这里,关于查看Nutch生成目录(crawldb/linkdb/segments)的3个对应的命令(readdb/readseg/readlinkdb)已经介绍完毕,你会了吗?
标签:
原文地址:http://blog.csdn.net/kandy_ye/article/details/51233336