全文搜索引擎会用某种算法对要建索引的文档进行分析, 从文档中提取出若干Token(词元), 这些算法称为Tokenizer(分词器), 这些Token会被进一步处理, <br> 比如转成小写等, 这些处理算法被称为Token Filter(词元处理器), 被处理后的结果被称为Term(词), 文档中 ...
分类:
其他好文 时间:
2020-12-16 12:35:37
阅读次数:
2
本文已经收录至我的GitHub,欢迎大家踊跃star和issues。https://github.com/midou-tech/articles题外话这次本来是准备用filebeat写数据到es,然后下一篇写查询语法和一些查询操作。就在我要写数据的时候,发现不对啊。mapping配置什么的都不知道,只是把数据塞进去了,完全不知道数据怎么结构化存储的,也不知道怎么查询。一般去对接es业务,都需要告诉
分类:
移动开发 时间:
2020-12-11 11:39:48
阅读次数:
7
IK分词器虽然自带词库 但是在实际开发应用中对于词库的灵活度的要求是远远不够的,IK分词器虽然配置文件中能添加扩展词库,但是需要重启ES 这章就当写一篇扩展了 其实IK本身是支持热更新词库的,但是需要我感觉不是很好 词库热更新方案: 1:IK 原生的热更新方案,部署一个WEB服务器,提供一个Http ...
分类:
数据库 时间:
2020-09-18 00:20:51
阅读次数:
45
搜索引擎三大过程 爬取内容、进行分词、建立倒排索引。 分词器 分词器使用IK,通常为了保证索引时覆盖度和搜索时准确度,索引分词器采用ik_max_word,搜索分析器采用ik_smart模式。可在IK的配置文件中配置自定义的词典、停词词典。 倒排索引 Elasticsearc依赖Lucene建立倒排 ...
分类:
其他好文 时间:
2020-09-07 19:19:25
阅读次数:
60
一、安装IK分词器 下载ik分词器插件 wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.2/elasticsearch-analysis-ik- 使用linux下载会很慢,于是我自己去git ...
分类:
其他好文 时间:
2020-09-07 19:07:17
阅读次数:
48
这篇文章主要来介绍下什么是Analysis,什么是分词器,以及ElasticSearch自带的分词器是怎么工作的,最后会介绍下中文分词是怎么做的。首先来说下什么是Analysis:什么是Analysis?顾名思义,文本分析就是把全文本转换成一系列单词(term/token)的过程,也叫分词。在ES中,Analysis是通过分词器(Analyzer)来实现的,可使用ES内置的分析器或者按需定制化分析
分类:
其他好文 时间:
2020-08-28 11:58:35
阅读次数:
45
1. 获取 ES-IKAnalyzer插件 一定和ES的版本一致( 7.8.1) 地址: https://github.com/medcl/elasticsearch-analysis-ik/releases 1 //解压zip文件到指定文件夹unzip elasticsearch-analysis ...
分类:
其他好文 时间:
2020-08-18 15:41:29
阅读次数:
88
下载eslasticSearch(本次使用6.5.4的windows版本) https://www.elastic.co/cn/downloads/past-releases 下载ik中文分词器(对应es的版本 下载zip) https://github.com/medcl/elasticsearc ...
分类:
其他好文 时间:
2020-08-01 12:35:01
阅读次数:
94
DockerFile构建ElasticSearch镜像安装IK中文分词器插件 为什么要安装IK中文分词器? ES提供的分词是英文分词,对中文做分词时会拆成单字而不是词语,非常不好,因此索引信息含中文时需要使用中文分词器插件。 一、环境及文件准备 环境准备 VMWare版本:15.5.5 操作系统:C ...
分类:
其他好文 时间:
2020-07-29 17:44:12
阅读次数:
85
Elasticsearch中当我们设置Mapping(分词器、字段类型)完毕后,就可以按照设定的方式导入数据。
分类:
其他好文 时间:
2020-07-27 23:37:15
阅读次数:
70