1.HanLP分词器插件下载地址https://github.com/pengcong90/elasticsearch-analysis-hanlp/releases下载analysis-hanlp.zip 2.解压到ElasticSearch下plugins目录下 3.配置修改analysis-h ...
分类:
其他好文 时间:
2019-03-12 09:25:49
阅读次数:
542
核心数据类型text&keywordText:1:支持分词,全文检索,支持模糊、精确查询,不支持聚合,排序操作;2:test类型的最大支持的字符长度无限制,适合大字段存储;使用场景:存储全文搜索数据,例如:邮箱内容、地址、代码块、博客文章内容等。默认结合standardanalyzer(标准解析器)对文本进行分词、倒排索引。默认结合标准分析器进行词命中、词频相关度打分。keyword:1:
分类:
其他好文 时间:
2019-03-11 16:19:37
阅读次数:
235
新添功能: 添加词形变化信息, 如查询"get"显示: 过去分词: got; 过去式: got; 现在分词: getting; 第三人称单数: gets; 弹窗中显示处理后的英文, 比如, 查询"Task", 弹窗中会显示"task". 提供输入框, 可供当无法选中页面中的文本或者手动输入后按回车键 ...
分类:
其他好文 时间:
2019-03-10 09:36:38
阅读次数:
179
需要两个jar包 ansj_seg.jar nlp-lang ...
分类:
编程语言 时间:
2019-03-07 14:15:52
阅读次数:
279
1. 引言 "syntax parser" 是一个 JS 版语法解析器生成器,具有分词、语法树解析的能力。 通过两个例子介绍它的功能。 第一个例子是创建一个词法解析器 : 如上,通过正则分别匹配了 “空格”、“字母或数字”、“加号”,并将匹配到的空格忽略(不输出)。 分词匹配是从左到右的,优先匹配数 ...
分类:
其他好文 时间:
2019-03-04 10:00:11
阅读次数:
201
分析器(Analyzer) Elasticsearch 无论是内置分析器还是自定义分析器,都由三部分组成:字符过滤器(Character Filters)、分词器(Tokenizer)、词元过滤器(Token Filters)。 分析器Analyzer工作流程: Input Text => Char... ...
分类:
其他好文 时间:
2019-03-01 12:44:51
阅读次数:
224
正排索引与倒排索引 什么是正排索引(forward index)? 由key查询实体的过程,是正排索引. 在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。简单的,正排索引可以理解为(文件内容会对应一个分词后的集合li ...
分类:
其他好文 时间:
2019-02-28 16:43:15
阅读次数:
149
ELK系列的示例中,启动的是单个的ES节点。 系列文章: 【ELK】【docker】【elasticsearch】1. 使用Docker和Elasticsearch+ kibana 5.6.9 搭建全文本搜索引擎应用 集群,安装ik分词器 【ELK】【docker】【elasticsearch】2. ...
分类:
其他好文 时间:
2019-02-28 11:54:47
阅读次数:
1012
一、计算机视觉 1. OpenCV图像处理 在https://www.lfd.uci.edu/~gohlke/pythonlibs/网站下载相应的.whl文件 进入文件下载目录下 pip install xx.whl 安装 2. Pytorch深度学习框架 conda install pytorch ...
分类:
编程语言 时间:
2019-02-26 13:32:52
阅读次数:
300
在window下使用gemsim.models.word2vec.LineSentence加载中文维基百科语料库(已分词)时报如下错误: 这种编码问题真的很让人头疼,这种问题都是出现在xxx.decode("utf-8")的时候,所以接下来我们来看看gensim中的源码: 从源码中可以看到__ite ...
分类:
其他好文 时间:
2019-02-21 12:52:53
阅读次数:
727