码迷,mamicode.com
首页 > Web开发 > 详细

Nutch中Web图基本类型和存储结构

时间:2015-04-12 14:50:55      阅读:144      评论:0      收藏:0      [点我收藏+]

标签:nutch   搜索引擎   hadoop   源码分析   

Node表示Web图中节点,基本信息包括:入链数、出链数、入链分数和元数据。出链分数通过入链分数除以出链数得到

LinkDatum表示Web图中链接,基本信息包括:链接、锚文本、分数、时间戳和链接类型(出链或入链)。

LinkNode表示链接节点,包括链接和Node两部分。

LoopSet表示链接构成的环,包含环中的链接集合。

Web图由抓取的段(主要是parse-data,可选包括crawl-fetch)生成,包括三部分:出链数据库、入链数据库和节点库。

Web图所在目录为w,则:

出链数据库所在目录为w/outlinks/current

老出链数据库所在目录为w/outlinks/old

入链数据库所在目录为w/inlinks

节点库所在目录为w/nodes

环数据库所在目录为w/loops

路径所在目录为w/routes

链接转储数据库所在目录为w/linkdump

出链数据库为MapFile,键为链接字符串(源链接),值为LinkDatum(类型为出链,其中的链接为目标链接)。

入链数据库为MapFile,键为链接字符串(目标链接),值为LinkDatum(类型为入链,其中的链接诶为源链接)。

节点数据库为MapFile,键为节点链接字符串,值为Node

环数据库为MapFile,键为链接Text,值为LoopSet。表示每个链接的环信息。

链接转储数据库为MapFile,键为链接Text,值为LinkNodes,表示每个链接的入链信息。

Nutch中Web图基本类型和存储结构

标签:nutch   搜索引擎   hadoop   源码分析   

原文地址:http://blog.csdn.net/kidden/article/details/45009771

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!