本文转载http://blog.csdn.net/jspamd/article/details/8194919 不同的Lucene分析器Analyzer,它对TokenStream进行分词的方法是不同的,这需要根据具体的语言来选择。比如英文,一般是通过空格来分割词条,而中文汉字则不能通过这种方式,....
分类:
Web程序 时间:
2015-11-12 19:43:09
阅读次数:
373
Solr高亮使用了很多Lucene的源码,在Lucene源码org.apache.lucene.search.highlight包的Highlighter.java里的方法: public final TextFragment[] getBestTextFragments( ? ? TokenStream tokenStream, ? ? ...
分类:
其他好文 时间:
2015-08-26 22:45:08
阅读次数:
275
原文:Lucene.Net 2.3.1开发介绍 —— 二、分词(三) 1.3 分词器结构 1.3.1 分词器整体结构 从1.2节的分析,终于做到了管中窥豹,现在在Lucene.Net项目中添加一个类关系图,把TokenStream和他的儿孙们统统拉上去,就能比较好的把握他们之间的关系。 图 1.3....
分类:
Web程序 时间:
2015-06-26 16:15:47
阅读次数:
153
分词lucene在查询和建立索引文件的过程中,都是基于语素单元来操作的。而分词就是将查询语句,转换为一个个单独的语素单元。
主要通过Analyzer类解析实现,Analyzer通过调用TokenStream来实现。
分词的主要架构:Analyzer 常用的有: SimpleAnalyzer: 将查询语句转换为语素单元时完成转换为小写的操作。 StandardAnalyzer :最为...
分类:
Web程序 时间:
2015-06-03 11:49:11
阅读次数:
153
通过学习Lucene3.5.0的doc文档,对不同release版本号 lucene版本号的API修改做分析。最后找到了有价值的修改信息。LUCENE-2302: Deprecated TermAttribute and replaced by a new CharTermAttribute. Th...
分类:
Web程序 时间:
2015-03-15 16:33:36
阅读次数:
163
在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer ov...
分类:
Web程序 时间:
2014-12-18 16:29:35
阅读次数:
1432
首先介绍下在lucene中attributeSource的类层次:
org.apache.lucene.util.AttributeSource
· org.apache.lucene.analysis.TokenStream (implementsjava.io.Closeable)
· org.apache.lucene.analysis.NumericTok...
分类:
其他好文 时间:
2014-12-11 19:14:11
阅读次数:
388
TokenStream: 分词器做好处理之后得到的一个流。这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元。
以下是把文件流转换成分词流(TokenStream)的过程
首先,通过Tokenizer来进行分词,不同分词器有着不同的Tokenzier,Tokenzier分完词后,通过TokenFilter对已经分好词的数据进行过滤,比如停止词。过滤完之后,把所有的数据组合成一个TokenStream;...
分类:
Web程序 时间:
2014-11-17 22:56:37
阅读次数:
458
通过学习Lucene3.5.0的doc文档,对不同release版本号 lucene版本号的API修改做分析。最后找到了有价值的修改信息。LUCENE-2302: Deprecated TermAttribute and replaced by a new CharTermAttribute. Th...
分类:
其他好文 时间:
2014-10-10 10:39:24
阅读次数:
324
通过学习Lucene3.5.0的doc文档,对不同release版本号 lucene版本号的API修改做分析。最后找到了有价值的修改信息。LUCENE-2302: Deprecated TermAttribute and replaced by a new CharTermAttribute. Th...
分类:
其他好文 时间:
2014-09-27 10:45:39
阅读次数:
264