免费的Lucene 原理与代码分析完整版下载

时间：2017-08-23 18:20:07 阅读：168 评论：0 收藏：0 [点我收藏+]

标签：文件内容 sim .com 长度结构化 clip 字符串不难 collect

Lucene是一个基于Java的高效的全文检索库。
那么什么是全文检索，为什么需要全文检索？
目前人们生活中出现的数据总的来说分为两类：结构化数据和非结构化数据。很容易理解，结构化数据是有固定格式和结构的或者有限长度的数据，比如数据库，元数据等。非结构化数据则是不定长或者没有固定格式的数据，如图片，邮件，文档等。还有一种较少的分类为半结构化数据，如XML，HTML等，在一定程度上我们可以将其按照结构化数据来处理，也可以抽取纯文本按照非结构化数据来处理。
非结构化数据又称为全文数据。，对其搜索主要有两种方式:

顺序扫描法（SerialScanning）：顾名思义，要找内容包含某一个字符串的文档，就挨着文档一个个找，对照每一个文档从头到尾，一直扫描，指导扫描完所有的文档。类似于Windows中搜索文件的功能。
第二种则为索引。就是从非结构化数据中提取出信息重新组织，使其变得有一定的组织，从而提高检索效率。比如我们的电话簿，从电话簿中查找联系人，我们根据首字母拼音可以索引定位到某一个联系人。

先建立索引在对索引进行搜索的过程就叫做全文检索（Full-text Search）。下图为全文检索的一般过程，也是Lucene检索的过程。

我的博客：CODE大全：www.codedq.net；业余草：www.xttblog.com；爱分享：www.ndislwf.com或ifxvn.com。

Lucene总的来说是：

一个高效的，可扩展的，全文检索库。
全部用Java实现，无须配置。
仅支持纯文本文件的索引(Indexing)和搜索(Search)。
不负责由其他格式的文件抽取纯文本文件，或从网络中抓取文件的过程。

在Lucene in action中，Lucene 的构架和过程如下图，

说明Lucene是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。

我的博客：CODE大全：www.codedq.net；业余草：www.xttblog.com；爱分享：www.ndislwf.com或ifxvn.com。

让我们更细一些看Lucene的各组件：

被索引的文档用Document对象表示。
IndexWriter通过函数addDocument将文档添加到索引中，实现创建索引的过程。
Lucene的索引是应用反向索引。
当用户有请求时，Query代表用户的查询语句。
IndexSearcher通过函数search搜索Lucene Index。
IndexSearcher计算term weight和score并且将结果返回给用户。
返回给用户的文档集合用TopDocsCollector表示。

那么如何应用这些组件呢？

让我们再详细到对Lucene API 的调用实现索引和搜索过程。

索引过程如下：
- 创建一个IndexWriter用来写索引文件，它有几个参数，INDEX_DIR就是索引文件所存放的位置，Analyzer便是用来对文档进行词法分析和语言处理的。
- 创建一个Document代表我们要索引的文档。
- 将不同的Field加入到文档中。我们知道，一篇文档有多种信息，如题目，作者，修改时间，内容等。不同类型的信息用不同的Field来表示，在本例子中，一共有两类信息进行了索引，一个是文件路径，一个是文件内容。其中FileReader的SRC_FILE就表示要索引的源文件。
- IndexWriter调用函数addDocument将索引写到索引文件夹中。
搜索过程如下：
- IndexReader将磁盘上的索引信息读入到内存，INDEX_DIR就是索引文件存放的位置。
- 创建IndexSearcher准备进行搜索。
- 创建Analyer用来对查询语句进行词法分析和语言处理。
- 创建QueryParser用来对查询语句进行语法分析。
- QueryParser调用parser进行语法分析，形成查询语法树，放到Query中。
- IndexSearcher调用search对查询语法树Query进行搜索，得到结果TopScoreDocCollector。