码迷,mamicode.com
首页 > 其他好文 > 详细

nutch - hbase 的存储结构

时间:2014-09-01 19:07:13      阅读:213      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   color   ar   art   div   log   sp   

webpage字段解释

webpage各阶段的字段值变化


ROW    com.2345.www:http/
COL    f : fi    //fetchInterval
COL    f : ts    //fetchTime
id
主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息(这里说的不对,会保留历史版本的,每个row都有时间戳,会保留一定量的历史版本,过低的可能会删除)。

rowkey为 reversed domain name:protocol:port and path  举例: com.2345.www:http/

nutch基本是用 url 作为rowkey的, 用这个实现url的去重。   然后通过“fetchTime” 来看是否达到generate的日期。


 

nutch - hbase 的存储结构

标签:style   blog   http   color   ar   art   div   log   sp   

原文地址:http://www.cnblogs.com/i80386/p/3949698.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!