使用IKAnalyzer 中文分析器。. 第一步: 把,IKAnalyzer2012FF_u1j 添加到sol/WEB-INF/lib 目录下。 第二步: 复制IKAnalyzer 的配置文件和自定义词典和停用词词典到solr 的classpath (classes),即solr\WEB-INF\c ...
分类:
Web程序 时间:
2018-04-03 10:54:31
阅读次数:
201
实现思路很简单: 基于「短语匹配」并设置最小匹配权重值 哪来的短语,利用 IK 分词器分词 基于 Fiter 实现筛选 基于 Pageable 实现分页排序 ...
分类:
编程语言 时间:
2018-03-22 19:33:29
阅读次数:
291
主要知识点: 知道IK默认的配置文件信息 自定义词库 一、ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起 quantif... ...
分类:
其他好文 时间:
2018-03-08 22:56:58
阅读次数:
198
1. 下载或者编译 IK 分词器的 jar 包文件,然后放入 ...\apache-tomcat-8.5.16\webapps\solr\WEB-INF\lib\ 这个 lib 文件目录下; IK 分词器下载地址:http://download.csdn.net/download/qq_353185 ...
分类:
其他好文 时间:
2018-02-07 14:39:45
阅读次数:
110
起因 需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷。我们来看个实例: 输出结果: 既然ES的默认分词器对于中文支持非常不友好,那么有没有可以支持中文的分词器呢?如果有,该如何使用 ...
分类:
其他好文 时间:
2018-01-06 00:06:37
阅读次数:
650
转自::http://www.cnblogs.com/zhuxiaojie/p/5764680.html,谢谢博主分享 至于为什么要用solr5.5,因为最新的6.10,没有中文的分词器支持,这里使用的是ik分词器,刚好支持到5.5 ik分词器下载地址 :https://github.com/Eug ...
分类:
其他好文 时间:
2017-11-04 23:38:08
阅读次数:
259
一、安装。 去github下下载对应的ik版本: https://github.com/medcl/elasticsearch-analysis-ik/releases,并解压到对应的安装路径:../elasticsearch-5.5.3/plugin/ 使用elasticsearch-plugin ...
分类:
其他好文 时间:
2017-09-28 20:44:09
阅读次数:
1256
前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如: 逼格这个词就没有分出来。 词库 实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库。 IK分词器(IK Analysis for Elasticsearch)给了我们一个基本的配置: ht ...
分类:
其他好文 时间:
2017-09-27 11:31:31
阅读次数:
1238
ES是一款稳定强大开源的搜索引擎框架,近乎实时的存储、搜索和分析大数据,下面就看下怎么开始安装和运行,以windows为例 ES安装和运行 1、首先要安装Java JDK,最低版本要1.8 2、首先下载Windows版本的压缩包,https://www.elastic.co/downloads 3、 ...
分类:
其他好文 时间:
2017-09-10 12:27:56
阅读次数:
301
IK分词器就是一款中国人开发的,扩展性很好的中文分词器,它支持扩展词库,可以自己定制分词项,这对中文分词无疑是友好的。 jar包下载链接:http://pan.baidu.com/s/1o85I15o 密码:p82g下载好之后,将IK对应的jar复制到项目的D:\tomcat\webapps\sol ...
分类:
其他好文 时间:
2017-08-23 20:03:31
阅读次数:
431