1. 背景 Elasticsearch 在公司的使用越来越广,很多同事之前并没有接触过 Elasticsearch,所以,最近在公司准备了一次关于 Elasticsearch 的分享,整理成此文。此文面向 Elasticsearch 新手,老司机们可以撤了。 2. 倒排索引 先简单介绍下搜索引擎的基 ...
分类:
其他好文 时间:
2017-04-06 01:08:39
阅读次数:
326
注:本文主要记录这次解决内存溢出问题的过程而不是具体问题。 最近在写一个搜索引擎,使用倒排索引结构进行文档检索,保存索引的基本思想是先将倒排列表保存到内存中一个有序Map里(TreeMap),然后当内存占用达到一定阈值的时候将内存中的倒排列表有序写入磁盘,当磁盘已经存在索引时,则将内存中的索引和磁盘 ...
分类:
编程语言 时间:
2017-04-05 19:14:16
阅读次数:
265
使用Lucene 6.0对文本进行中文分词,然后使用MapReduce构建倒排索引,统计文档频率和总的词项频率
分类:
其他好文 时间:
2017-04-04 23:45:48
阅读次数:
301
功能 1):分词 jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式 jieba.cut_for_search方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 注意:待分词的字符串可以是g ...
分类:
其他好文 时间:
2017-03-09 18:24:59
阅读次数:
197
前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasticsearch之几个重要的分词器 elasticsearch官方默认的分词插件 1、elastics ...
分类:
其他好文 时间:
2017-02-24 22:12:56
阅读次数:
787
前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch的分词器的一般工作流程: 1、切分关键词 2、去除停用词 3、对于英文单词,把所有字母转为小写(搜索时不区分大小写) ...
分类:
其他好文 时间:
2017-02-24 21:04:34
阅读次数:
213
前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch的停用词 1、有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响。 2、英文 a、an、the、of 3、中文 的、了、着、是 、标点符号等 4 ...
分类:
其他好文 时间:
2017-02-24 21:01:36
阅读次数:
230
http://www.cnblogs.com/forfuture1978/category/300665.html Lucene 4.X 倒排索引原理与实现: (3) Term Dictionary和Index文件 (FST详细解析) 摘要: 我们来看最复杂的部分,就是Term Dictionary ...
分类:
Web程序 时间:
2017-02-06 23:15:41
阅读次数:
313
Solr搜索技术 今日大纲 回顾上一天的内容: 倒排索引 lucene和solr的关系 lucene api的使用 CRUD 文档、字段、目录对象(类)、索引写入器类、索引写入器配置类、IK分词器 查询解析器、查询对象(用户要查询的内容)、索引搜索器(索引库的物理位置)、排名文档集合(包含得分文档数... ...
分类:
其他好文 时间:
2017-01-10 23:29:51
阅读次数:
423
本教程是从别人的基础上借鉴整理的 Solr是一个独立的企业级搜索应用服务器,它对外提供API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引(solr生成倒排索引,数据库生成的索引是二叉树索引,效率差距很大);也可以通过Http Get操作提出查找请求,并得到XML ...
分类:
其他好文 时间:
2017-01-04 23:30:16
阅读次数:
1449