下载eslasticSearch(本次使用6.5.4的windows版本) https://www.elastic.co/cn/downloads/past-releases 下载ik中文分词器(对应es的版本 下载zip) https://github.com/medcl/elasticsearc ...
分类:
其他好文 时间:
2020-08-01 12:35:01
阅读次数:
94
DockerFile构建ElasticSearch镜像安装IK中文分词器插件 为什么要安装IK中文分词器? ES提供的分词是英文分词,对中文做分词时会拆成单字而不是词语,非常不好,因此索引信息含中文时需要使用中文分词器插件。 一、环境及文件准备 环境准备 VMWare版本:15.5.5 操作系统:C ...
分类:
其他好文 时间:
2020-07-29 17:44:12
阅读次数:
85
1,讲分词器的文件夹放入es安装包的plugins,重新启动elasticsearch //查询es运行中的进程pid ps -aux|grep elasticsearch //杀死进程 kill -9 pid //使用es账户启动 nohup ./elasticsearch & 2,重启es,然后 ...
分类:
其他好文 时间:
2020-07-17 19:24:23
阅读次数:
67
1,讲分词器的文件夹放入es安装包的plugins,重新启动elasticsearch //查询es运行中的进程pid ps -aux|grep elasticsearch //杀死进程 kill -9 pid //使用es账户启动 nohup ./elasticsearch & 2,重启es,然后 ...
分类:
其他好文 时间:
2020-07-17 16:22:28
阅读次数:
69
https://www.cnblogs.com/ysherlock/p/7822304.html 基于词典的方法、基于统计的方法、基于规则的方法 1、基于词典的方法(字符串匹配,机械分词方法) 定义:按照一定策略将待分析的汉字串与一个大机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 ...
分类:
其他好文 时间:
2020-07-04 13:25:10
阅读次数:
69
最大概率法分词是在最大匹配分词算法上的改进。 在某些语句切分时,按最大长度切分词语可能并不是最优切分。 而不按最优长度切分词语,则同一语句会出现多种切分结果。 计算每种切分结果的概率,选取概率最高的切分作为最优分词切分。 http://www.shizhuolin.com/?p=1860 ...
分类:
编程语言 时间:
2020-07-04 13:18:35
阅读次数:
76
https://www.cnblogs.com/dahuang123/p/11990651.html https://www.cnblogs.com/by-dream/p/6429615.html https://zhuanlan.zhihu.com/p/103392455 ...
分类:
编程语言 时间:
2020-07-04 13:18:19
阅读次数:
75
最少切分分词算法 该分词算法依据最少切分原则,从几种分词算法切分结果中取切分词数最少一种的。 比如,从正向最大匹配和逆向最大匹配两者中选择词数较少的方案,当词数相同时,采取某种策略,选择其中一个。 https://blog.csdn.net/cuixianpeng/article/details/4 ...
分类:
编程语言 时间:
2020-07-04 13:07:34
阅读次数:
71
1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...
分类:
其他好文 时间:
2020-07-04 01:18:52
阅读次数:
87
1. 实验环境配置 安装IDE :VS Code;安装Python,安装 jieba,hanLP等NLP工具。 简单的程序练习,不需要特别熟练,能在指导下完成操作即可。 做最简单中文分词程序测试环境。 2. 文本可视化:词云、关系图、热力图等 制作词云,进一步了解分词和词频。 https://blo ...
分类:
其他好文 时间:
2020-06-27 00:10:11
阅读次数:
88