二、SimpleAnalyzer 以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符。很明显不适用于中文环境。 package bond.lucene.analyzer; import org.apache.lucene.analysis.TokenStream; impor ...
分类:
Web程序 时间:
2017-09-21 19:18:30
阅读次数:
333
讲解之前,先来分享一些资料 首先呢,学习任何一门新的亦或是旧的开源技术,百度其中一二是最简单的办法,先了解其中的大概,思想等等。这里就贡献一个讲解很到位的ppt。已经被我转成了PDF,便于搜藏。 其次,关于第一次编程初探,建议还是查看官方资料。百度到的资料,目前Lucene已经更新到4.9版本,这个 ...
分类:
编程语言 时间:
2017-09-18 01:15:51
阅读次数:
268
Lucene 为了使的信息的存储占用的空间更小,访问速度更快,采取了一些特殊的技巧,然 而在看 Lucene 文件格式的时候,这些技巧却容易使我们感到困惑,所以有必要把这些特殊 的技巧规则提取出来介绍一下。 在下不才,胡乱给这些规则起了一些名字,是为了方便后面应用这些规则的时候能够简单, 不妥之处请 ...
分类:
Web程序 时间:
2017-09-13 19:28:30
阅读次数:
234
Lucene 索引文件中,用一下基本类型来保存信息:1. Byte:是最基本的类型,长 8 位(bit)。2. UInt32:由 4 个 Byte 组成。3. UInt64:由 8 个 Byte 组成。4. VInt: " 变长的整数类型,它可能包 多个 Byte,对于每个 Byte 的 8 位,其 ...
分类:
Web程序 时间:
2017-09-13 19:27:27
阅读次数:
170
在学习elasticsearch之前,我们先要弄清楚几个问题,就是what,why和how 1.what elasticsearch是什么 官方概念:elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasti ...
分类:
其他好文 时间:
2017-09-12 13:45:11
阅读次数:
131
Lucene中,高亮功能和store属性是否存储息息相关,因为需要根据偏移位置到原始文档中找到关键字才能加上高亮的片段。在Elasticsearch,因为_source中已经存储了一份原始文档,可以根据_source中的原始文档实现高亮,在索引中再存储原始文档就多余了,所以Elasticsearch默认是把..
分类:
其他好文 时间:
2017-09-11 18:01:16
阅读次数:
118
1.solr简介 采用Java开发,基于Luncene的全文搜索服务器,同时对其进行了扩展(扩展了面向抽象编程的地方,比如分词器,查询),提供了比Lucene更为丰富的查询语言(比如,过滤器),同时实现了可配置(跟hadoop整合,之前索引结构写在代码中,现在提前定义好)、可扩展并对查询性能进行了优 ...
分类:
其他好文 时间:
2017-09-10 12:31:05
阅读次数:
120
基础概念 Elasticsearch是一个近实时的系统,从你写入数据到数据可以被检索到,一般会有1秒钟的延时。Elasticsearch是基于Lucene的,Lucene的读写是两个分开的句柄,往写句柄写入的数据刷新之后,读句柄重新打开,这才能读到新写入的数据。 名词解释: Cluster:集群。 ...
分类:
其他好文 时间:
2017-09-08 20:42:36
阅读次数:
224
基于内容的推荐通常是给定一篇文档信息,然后给用户推荐与该文档相识的文档。Lucene的api中有实现查询文章相似度的接口,叫MoreLikeThis。Elasticsearch封装了该接口,通过Elasticsearch的More like this查询接口,我们可以非常方便的实现基于内容的推荐。 ...
分类:
其他好文 时间:
2017-09-05 17:53:10
阅读次数:
236