标签:Lucene blog http 使用 java ar strong 文件 art
Lucene:分词器和索引文件
目录
分词器,对文本资源进行切分,将字符文本串按照一定的规则切分为一个个可以进行索引的最小单位(关键词),以便检索时使用。
建立索引和进行检索时都要用到分词器。为了保证能正确的检索到结果,在建立索引与进行检索时使用的分词器应是同一个。
索引库是一组索引文件的集合。
索引文件的维护:维护索引常使用三个操作:插入、删除和更新文档。但是更新操作需要较高的代价,因为文档修改后(即使是很小的修改),也可以造成文档中的很多的关键词的位置发生了变化,这时需要频繁的读取和修改记录,这种代价是相当高的。因此,一般不进行更新操作,而是使用“先删除,后创建”的方式代替更新操作。
http://www.cnblogs.com/bluepoint2009/archive/2012/09/25/lucene-tokenizer-and-index-file.html
http://blog.csdn.net/likika2012/article/details/17026935
标签:Lucene blog http 使用 java ar strong 文件 art
原文地址:http://www.cnblogs.com/pengkunfan/p/3959110.html