码迷,mamicode.com
首页 > 其他好文 > 详细

[Nutch]查看Nutch生成目录下的具体内容

时间:2016-04-29 19:19:35      阅读:183      评论:0      收藏:0      [点我收藏+]

标签:

上一篇博文里面对nutch爬虫在抓取数据的时候产生的目录进行的说明,那么这写目录文件里面的内容如何才能查看呢?本篇博文将详细为你介绍查看具体内容的方法。

我们先来看下nutch相关的命令:
技术分享
从上图我们可以知道,nutch提供了很多命令帮助我们来了解当前的情况。

1. readdb

主要用于read/dump crawl db。而readdb也有很多参数可以选择:
技术分享
(1)-stats
使用-stats来看出具体的状态:
技术分享
从这个统计信息可以看到:

  • 总共的URL为:7941个;
  • retry 0次的url:7941个;
  • 最小的分数为:0;
  • 最大的分数为:1.0;
  • 平均的分数为:2.749024E-4。
  • unfetched的为:6601;
  • fetched的为:1258;
  • 临时重定向redir_temp为:69;
  • 永久重定向redir_perm为:13;

(2)-dump
使用dump参数可以查看整个数据库。执行如下命令:

bin/nutch readdb data/crawldb -dump data/crawldb/crawl_dump

执行此命令之后会生成一个文本文件:
技术分享
其中的内容大致如下:
技术分享
主要存储的就是url以及其状态和相关的信息。

(3)-url
打印具体url的情况。
技术分享

(4)-topN
把制定数目的url根据分值进行排序。
技术分享
也会生成一个文件:part_0000,其内容如下:
技术分享

2. readseg

主要用于查看segments目录下面子目录里面的内容。参数如下:
技术分享

(1)-dump
查看对应的文本内容。

bin/nutch readseg -dump data/segments/20160423200417/ data/segments/20160423200417_dump -nocontent -nogenerate -noparse -noparsedata -noparsetext

技术分享

(2)-list
使用如下的命令:

bin/nutch readseg -list -dir data/segments

结果如下:
技术分享

(3)-get
查看segment中某一特定URL的状况,输入所有和他相关的内容。使用如下命令:

bin/nutch readseg -get data/segments/20160423200417 http://blog.tianya.cn/

结果如下:
技术分享

3. readlinkdb

读取linkdb里面的数据。相关参数如下:
技术分享

(1)-dump
dump出相关的内容。命令:

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump

运行之后会生成一个文本文件part-0000:
技术分享

part-0000的具体内容如下:
技术分享
技术分享

(2)-url
查看具体url相关信息,命令如下:

bin/nutch readlinkdb data/linkdb -url http://bbs.tianya.cn/list-1018-1.shtml

输出结果如下:
技术分享

到这里,关于查看Nutch生成目录(crawldb/linkdb/segments)的3个对应的命令(readdb/readseg/readlinkdb)已经介绍完毕,你会了吗?

[Nutch]查看Nutch生成目录下的具体内容

标签:

原文地址:http://blog.csdn.net/kandy_ye/article/details/51233336

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!