这一个星期花时间好好学习了一下lucene/solr,今天好好总结一下,写点文章记录点重要的东西,以便日后不至于丈二和尚摸不着头脑,
这一篇文章主要是简单的介绍一下lucene分词过程中的分词流程,和一些简单原理的讲解,希望不妥这处读者能够指正,不胜感激!!
(一)主要分词器
WhitespaceAnalyzer、StopAnalyzer、SimpleAnalyzer、Key...
分类:
Web程序 时间:
2015-02-03 17:15:53
阅读次数:
181
前一篇文章 lucene分词流程讲解了分词的一些流程,我们也对分词流程有了一个初步的了解,知道一个分词器由多个Tokenizer和TokenFilter组成,这篇文章讲解的就是我们利用这两个特性实现自己的一个简单的同义词分词器,不妥之处请大家指出
(一)分析
如何实现同义词呢?比如重庆可以叫做山城,我们搜索山城的时候也应该要搜索要包含重庆这个单词的文章。那么我们就必须要了解lucene只怎么处...
分类:
Web程序 时间:
2015-02-03 17:10:14
阅读次数:
226
在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲,有两个点;词库和搜索效率,也就是算法。
lucene的倒排列表中,不同的分词单元有不同的PositionIncrementAttribute,如果两个词有着相同位置属性,比如:我定义美国和中国这两个词在倒排列表中是同一个位置,那么搜索美国的话,中国也能出来。这就是同义词搜索原理。
以下代码(用mmseg的 Tokenizer 去切词之后,然后再做同义词):
先自定义...
分类:
Web程序 时间:
2014-11-19 18:47:09
阅读次数:
265
TokenStream: 分词器做好处理之后得到的一个流。这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元。
以下是把文件流转换成分词流(TokenStream)的过程
首先,通过Tokenizer来进行分词,不同分词器有着不同的Tokenzier,Tokenzier分完词后,通过TokenFilter对已经分好词的数据进行过滤,比如停止词。过滤完之后,把所有的数据组合成一个TokenStream;...
分类:
Web程序 时间:
2014-11-17 22:56:37
阅读次数:
458
Lucene系列介绍Lucene:分词器和索引文件目录分词器索引文件结构常用的中文分词器1、分词器分词器,对文本资源进行切分,将字符文本串按照一定的规则切分为一个个可以进行索引的最小单位(关键词),以便检索时使用。建立索引和进行检索时都要用到分词器。为了保证能正确的检索到结果,在建立索引与进行检索时...
分类:
其他好文 时间:
2014-09-06 08:35:42
阅读次数:
199
Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大..
分类:
其他好文 时间:
2014-08-10 18:58:01
阅读次数:
399
Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大多运用lu...
分类:
其他好文 时间:
2014-08-10 12:35:10
阅读次数:
210
TokenStream extends AttributeSource implements Closeable:
incrementToken,end,reset,close
Tokenizer直接继承至TokenStream,其输入input是一个reader
TokenFilter也直接继承TokenStream,但input是一个TokenStream。
TokenStreamCo...
分类:
其他好文 时间:
2014-06-26 13:19:13
阅读次数:
177
分词器 作用:切分关键词的。 在什么地方使用到了:在建立索引和搜索时。 原文:An IndexWriter creates and maintains an index. 1,切分: An IndexWriter creates and maintains an index...
分类:
其他好文 时间:
2014-06-20 18:27:48
阅读次数:
160