标签:style blog http color ar art div log sp
webpage字段解释
webpage各阶段的字段值变化
ROW com.2345.www:http/ COL f : fi //fetchInterval COL f : ts //fetchTime
id
主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息(这里说的不对,会保留历史版本的,每个row都有时间戳,会保留一定量的历史版本,过低的可能会删除)。
rowkey为 reversed domain name:protocol:port and path 举例: com.2345.www:http/
nutch基本是用 url 作为rowkey的, 用这个实现url的去重。 然后通过“fetchTime” 来看是否达到generate的日期。
标签:style blog http color ar art div log sp
原文地址:http://www.cnblogs.com/i80386/p/3949698.html