在之前我们学的都是英文,用的也是英文的standard分词器。从这一节开始,学习中文分词器。中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割开来,比如说中国人 --> 中 国 人 在中方搜索引擎领域,比较成熟和流行的,就... ...
分类:
其他好文 时间:
2018-03-08 23:03:39
阅读次数:
407
主要知识点: 知道IK默认的配置文件信息 自定义词库 一、ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起 quantif... ...
分类:
其他好文 时间:
2018-03-08 22:56:58
阅读次数:
198
solr7.2.1环境搭建和配置ik中文分词器 安装环境:Jdk 1.8、 windows 10 安装包准备: solr 各种版本集合下载:http://archive.apache.org/dist/lucene/solr/ tomcat下载(apache-tomcat-8.5.27-window ...
分类:
其他好文 时间:
2018-02-10 20:05:33
阅读次数:
230
1. 下载或者编译 IK 分词器的 jar 包文件,然后放入 ...\apache-tomcat-8.5.16\webapps\solr\WEB-INF\lib\ 这个 lib 文件目录下; IK 分词器下载地址:http://download.csdn.net/download/qq_353185 ...
分类:
其他好文 时间:
2018-02-07 14:39:45
阅读次数:
110
安装步骤 https://github.com/medcl/elasticsearch-analysis-ik 以插件形式安装: ...
分类:
其他好文 时间:
2018-01-21 13:46:05
阅读次数:
153
Description W 教授正在为国家航天中心计划一系列的太空飞行。每次太空飞行可进行一系列商业性实验而获取利润。现已确定了一个可供选择的实验集合E={E1,E2,…,Em},和进行这些实验需要使用的全部仪器的集合I={I1,I2,…In}。实验Ej需要用到的仪器是I的子集RjíI。配置仪器Ik ...
分类:
其他好文 时间:
2018-01-15 22:42:25
阅读次数:
161
class Solution { public: int quicksort(vector& nums, int start, int end, int k){ int i = start; int j = end; int x = nums[i]; while (ix && ik-1) //出错的... ...
分类:
其他好文 时间:
2018-01-14 13:08:06
阅读次数:
126
起因 需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷。我们来看个实例: 输出结果: 既然ES的默认分词器对于中文支持非常不友好,那么有没有可以支持中文的分词器呢?如果有,该如何使用 ...
分类:
其他好文 时间:
2018-01-06 00:06:37
阅读次数:
650
Description 最近IK正在做关于地形建模的工作。其中一个工作阶段就是把一些山排列成一行。每座山都有各不相同的标号和高度。为了遵从一些设计上的要求,每座山都设置了一个关键数字,要求对于每座山,比它高且排列在它前面的其它山的数目必须少于它的关键数字。 显然满足要求的排列会有很多个。对于每一个可 ...
分类:
其他好文 时间:
2017-12-31 21:03:54
阅读次数:
155
一. 问题: 在使用solr时, 分词器解析中文的时候, 是一个一个字解析的. 这并不是我们想要的结果. 而在lucene中, 使用的中文分词器是 IKAnalyzer. 那么在solr里面, 是不是任然可以用这个呢. 二. 整合 ik 1. 修改schema配置文件 打开如下路径中的managed ...
分类:
其他好文 时间:
2017-12-27 23:54:07
阅读次数:
210