1,讲分词器的文件夹放入es安装包的plugins,重新启动elasticsearch //查询es运行中的进程pid ps -aux|grep elasticsearch //杀死进程 kill -9 pid //使用es账户启动 nohup ./elasticsearch & 2,重启es,然后 ...
分类:
其他好文 时间:
2020-07-17 16:22:28
阅读次数:
69
记一下,懒得找了。 语料是NER的古文献语料,参考其他博客代码。 我先将标记的实体提出来,作为自定义字典,加入jieba中,然后再入停用词,再分词,最后训练词向量。效果还不知如何,后续再说。 #加载自定义词典 jieba.load_userdict("cidian.txt") #加载停用词 def ...
分类:
其他好文 时间:
2020-07-16 10:16:54
阅读次数:
68
之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字段分成一个一个汉字,然后搜索的时候也会把搜索的句子进行分词,所以这里就需要更加智能的分词器IK分词器了。 ik分词器的下载和安装,测试 第一: 下载地址:https://github.com/medcl/elast ...
分类:
其他好文 时间:
2020-07-12 18:50:57
阅读次数:
78
string site:URI 在某一站点内搜索 "string1 string2 ......... stringN" 作为整体搜索,必须使用double quotation marks 搜索引擎会进行分词等等,加入double quotation marks会禁止搜索引擎拆词string之间不会 ...
分类:
其他好文 时间:
2020-07-10 22:37:45
阅读次数:
67
1.数据预处理 xgb 训练的数据是 DataFream 不能是List 读取数据 利用pandas 读取数据,这里读取的是excel数据 data = pd.read_excel(filename, sheet_name='tabelname') 分词处理 利用jieba分词搞定 seg1 = j ...
分类:
其他好文 时间:
2020-07-08 23:05:15
阅读次数:
64
本篇涉及内容:ElasticSearch安装、ik分词器插件、head插件、kibana安装。 这里给出es7.8.0版本的安装包,网不好的朋友可以使用,链接如下: 链接:https://pan.baidu.com/s/1shdlDZEGII6BQ2M9J641ww 提取码:5ita 以下,除了he ...
分类:
其他好文 时间:
2020-07-08 23:03:19
阅读次数:
80
index 英 [??ndeks] 美 [??ndeks] CET4 | CET6 n. 索引; <数>指数; 指示; 标志; vt. 给…编索引; 把…编入索引; [经济学]按生活指数调整(工资、价格等); vi. [机械学]转位; 变形 过去分词: indexed 复数: indices 过去式 ...
分类:
其他好文 时间:
2020-07-08 10:29:15
阅读次数:
70
常用函数二:文本分词 方式一:jieba分词+停用词+自定义词典 # -*- coding: utf-8 -*- """ Datetime: 2020/06/25 Author: Zhang Yafei Description: 文本分词 输入 停用词文件路径 词典文件路径 分词文件路径 表名(可选 ...
分类:
编程语言 时间:
2020-07-05 21:25:01
阅读次数:
46
jieba库的作用就是对中文文章进行分词,提取中文文章中的词语 cut(字符串, cut_all,HMM) 字符串是要进行分词的字符串对象 cut_all参数为真表示采用全模式分词,为假表示采用精确模式分词,默认值为假; HMM为真表示采用HMM模型,为假则不采用,默认值为真。 精确模式jieba. ...
分类:
其他好文 时间:
2020-07-05 19:09:42
阅读次数:
128
https://www.cnblogs.com/ysherlock/p/7822304.html 基于词典的方法、基于统计的方法、基于规则的方法 1、基于词典的方法(字符串匹配,机械分词方法) 定义:按照一定策略将待分析的汉字串与一个大机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 ...
分类:
其他好文 时间:
2020-07-04 13:25:10
阅读次数:
69