关于本项目中使用到的庖丁分词的总结: Paoding 详细介绍 庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paodin ...
分类:
编程语言 时间:
2017-05-22 11:59:31
阅读次数:
130
一、hadoop的起源Apache Lucene 开源的高性能全文检索工具包Apache Nutch 开源的web搜索引擎google的三篇论文 GFS -> HDFS MapReduce -> MapReduce BigTable -> HBaseApache Hadoop 大规模数据处理 二、h ...
分类:
其他好文 时间:
2017-05-22 00:19:37
阅读次数:
266
转载自http://blog.csdn.net/u011026968/article/details/50336709 内容涉及:SolrCloud的基础知识、架构、索引创建和更新、查询、故障恢复、负载均衡、leader选举等的原理。 一、SolrCloud与Solr,lucene关系 1、 sol... ...
分类:
其他好文 时间:
2017-05-21 01:09:27
阅读次数:
289
merge是lucene的底层机制,merge过程会将index中的segment进行合并,生成更大的segment,提高搜索效率。segment是lucene索引的一种存储结构,每个segment都是一部分数据的完整索引,它是lucene每次flush或merge时候形成。每次flush就是将内存 ...
分类:
其他好文 时间:
2017-05-20 23:38:41
阅读次数:
281
提高性能 短语和邻近度查询比简单的match查询在性能上更昂贵。match查询只是查看词条是否存在于倒排索引(Inverted Index)中,而match_phrase查询则需要计算和比较多个可能重复词条(Multiple possibly repeated)的位置。 在Lucene Nightl ...
分类:
其他好文 时间:
2017-05-20 09:55:14
阅读次数:
230
Solr是一个基于Lucene的全文搜索引擎,同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,实现了可配置、可扩展并对查询性能进行了优化,更灵活的配置,更高的查询效率。支持 XML/HTTP协议 ;支持 JSON API 接口;支持缓存、复制;同时具有完善的Web管理界面,是一款非常优秀 ...
分类:
其他好文 时间:
2017-05-20 01:08:16
阅读次数:
119
1.solr Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。 Solr可以从Solr官方网站(http://lucene.apache.or ...
分类:
其他好文 时间:
2017-05-19 23:43:38
阅读次数:
290
Lucene–搜索一、创建查询对象的方式对要搜索的信息创建Query查询对象,Lucene会根据Query查询对象生成最终的查询语法。类似关系数据库Sql语法一样,Lucene也有自己的查询语法,比如...
分类:
Web程序 时间:
2017-05-19 11:12:12
阅读次数:
245
本章翻译自Elasticsearch官方指南的Controlling Relevance一章。 Lucene中的Practical Scoring Function 对于多词条查询(Multiterm Queries),Lucene使用的是布尔模型(Boolean Model),TF/IDF以及向量 ...
分类:
Web程序 时间:
2017-05-18 23:57:21
阅读次数:
315
概念:Apache Solr 是一个开源的搜索服务器。Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。Apache Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性 ...
分类:
Web程序 时间:
2017-05-18 18:50:15
阅读次数:
186