码迷,mamicode.com
首页 > 其他好文 > 详细

倒叙索引

时间:2018-01-31 01:03:46      阅读:139      评论:0      收藏:0      [点我收藏+]

标签:无法   key   file   常用   一个   body   bubuko   out   width   

  "倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。

技术分享图片

2 问题分析
实现"倒排索引"只要关注的信息为:单词、文档URL及词频。但是在实现过程中,索引文件的格式会略有所不同,以避免重写OutPutFormat类
技术分享图片

存在两个问题:
第一,<key,value>对只能有两个值,在不使用Hadoop自定义数据类型的情况下,需要根据情况将其中两个值合并成一个值,作为key或value值;
第二,通过一个Reduce过程无法同时完成词频统计和生成文档列表,所以必须增加一个Combine过程完成词频统计。

单词和URL组成key值(如"MapReduce:file1.txt"),将词频作为value,这样做的好处是可以利用MapReduce框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过程,实现类似于WordCount的功能。
技术分享图片

3)Reduce过程
经过上述两个过程后,Reduce过程只需将相同key值的value值组合成倒排索引文件所需的格式即可,剩下的事情就可以直接交给MapReduce框架进行处理了。
技术分享图片

 

倒叙索引

标签:无法   key   file   常用   一个   body   bubuko   out   width   

原文地址:https://www.cnblogs.com/1iHu4D0n9/p/8387649.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!