基于lucene的案例开发：索引数学模型

时间：2015-01-18 00:54:56 阅读：210 评论：0 收藏：0 [点我收藏+]

转载请注明出处：http://blog.csdn.net/xiaojimanman/article/details/42818185

通过前一篇博客，对所以也许有了一个大致的了解，知道检索是一个怎样的过程，这篇博客就简单的介绍一下lucene实现的数学模型。

前面我们已经提到lucene实现的索引是一种反向索引，有词典和倒排表组成（实际的结构要比这个复杂很多），那索引的数学模型又是怎样的呢？在开始这个之前，还是先熟悉下几个名词。

文档（Document）：上篇博客中的索引创建过程中列举的几个事例，每一句话都可以看成一个文档，当然该文档只有一个域（Field），通过标准分词技术，我们将这个域的值分成了很多的词元（Term），文档、域、词元这三个就是我们需要理解的三个名词。（这里自己想一下我们这次的案例小说信息中，哪些是文档、域和词元？）

计算权重（Term Weight）过程

从上面的介绍可知，一个文档可以分成多个词元（不同的分词技术，分成不同的词元），不同的词元对于文档的重要程度也是不同的。影响一个词元在一篇文档中的重要性主要有下面两个因素：

1、Term Frequency(tf) ：即此Term在此文档中出现的次数，tf越大，说明该词元越重要；

2、Document Frequency(df) ：即有多少文档包含此Term，df越大，说明该词元越不重要。

上面这两个因素对权重的影响也很好理解，这就好比我们自己的技能一样，掌握很深的技能对自己工作的重要程度要大于那些一般的技能，当然，如果某项技能只有你自己或者少数几个人了解，那你在这方面就有很大的竞争力（好像又扯远了）。那我们来看一下公式：

技术分享