分词器的核心类: Analyzer:分词器 TokenStream: 分词器做优点理之后得到的一个流。这个流中存储了分词的各种信息,能够通过TokenStream有效的获取到分词单元。 下面是把文件流转换成分词流(TokenStream)的过程 首先,通过Tokenizer来进行分词,不同分词器有着 ...
分类:
Web程序 时间:
2017-04-30 17:17:16
阅读次数:
190
lucene4.0版本号以后 已经用TokenStreamComponents 代替了TokenStream流。里面包含了filter和tokenizer 在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲。有两个点。词库 ...
分类:
Web程序 时间:
2017-04-30 12:35:14
阅读次数:
152
一:功能背景 近期要做个高亮的搜索需求,曾经也搞过。所以没啥难度。仅仅只是原来用的是Lucene,如今要换成Solr而已,在Lucene4.x的时候,散仙在曾经的文章中也分析过怎样在搜索的时候实现高亮,主要有三种方式。详细内容,请參考散仙曾经的2篇文章: 第一:在Lucene4.3中实现高亮的方式 ...
分类:
Web程序 时间:
2017-04-28 13:51:13
阅读次数:
245
Github 上一些关于PHP的开源项目,总有你喜欢的那一款 Awesome PHP Package Management Package Management Related Frameworks Framework Components Micro Frameworks Content Mana ...
分类:
Web程序 时间:
2017-04-27 13:28:41
阅读次数:
314
上中学的时候写作文,最喜欢的季节我都是写冬天。虽然是因为写冬天的人比较少,那时确实也是对其他季节没有什么特殊的偏好,反而一到冬天,自己皮肤会变得特别白。但是冬天啊,看到的只有四季常青盆栽:瓜栗(就是发财树,好吧,算我矫情,反正我不喜欢这个名字),绿萝,永远看不到它开花的巴西铁,富贵竹,散尾葵……过年 ...
分类:
编程语言 时间:
2017-04-25 18:28:04
阅读次数:
254
接近实时(NRT) Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。 集群(cluster) 一个集群就是由一个或多个节点组织在一起,它们共同持有你整个的数据,并一起提供索引和搜索功能。一个集群由一个唯一的名字标识, ...
分类:
其他好文 时间:
2017-04-25 17:08:59
阅读次数:
150
Elasticsearch是基于Apache 2.0开源的实时、分布式、分析搜索引擎,相比Lucene,Elasticsearch的上手比较容易,这篇文章主要纪录Elasticsearch的基本概念和基本API。 官方对Elasticsearch的定义: Elasticsearch is a dis ...
分类:
其他好文 时间:
2017-04-23 20:12:57
阅读次数:
126
public static void search(String indexDir,String q)throws Exception{ Directory dir=FSDirectory.open(Paths.get(indexDir)); IndexReader reader=Directory... ...
分类:
Web程序 时间:
2017-04-23 13:19:27
阅读次数:
198
https://www.elastic.co/guide/en/elasticsearch/guide/current/_finding_exact_values.html https://www.elastic.co/blog/frame-of-reference-and-roaring-bitm ...
分类:
其他好文 时间:
2017-04-21 22:30:33
阅读次数:
133
elasticsearch(以下简称es)是一款开源的搜索引擎,基于apach lucene。最近在做nlp的时候顺便研究一下。 下面是官方列举的术语解释 Near Realtime 接近实时的查询,通常情况下,延迟在1s以内 Cluster 一个集群由1个或者多个节点组成,这些节点提供整个数据和索 ...
分类:
其他好文 时间:
2017-04-20 10:37:54
阅读次数:
152