了解一下多字段搜索的场景,和要注意的细节点,精准搜索是一个非常大的话题,优化的空间没有上限,可以先从最基础的场景和调整语法开始尝试。 ...
分类:
其他好文 时间:
2020-03-22 10:36:41
阅读次数:
77
1、analyzer的组成 CharacterFilters:针对原始文本进行处理例如去掉html Tokenizer:按照规则切分单词 Token Filter:将切分好的单词进行二次加工 2、分词器 standard 默认分词器,按词切分,小写处理 stop 小写处理,停用词过滤(a,the,i ...
分类:
其他好文 时间:
2020-03-06 12:45:54
阅读次数:
72
概述: 制作词云的步骤: 1、从文件中读取数据 2、根据数据追加在一个字符串里面,然后用jieba分词器将评论分开 3、设置WordCloud词云参数 4、保存最后的结果 数据: "使用爬取的豆瓣影评数据" 第一步:引入依赖库 第二步:读取数据 第三步:解析数据并保存 效果图: 模型: 效果: 源代 ...
分类:
编程语言 时间:
2020-02-26 21:17:28
阅读次数:
122
一、IK分词器简介 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3. ...
分类:
其他好文 时间:
2020-02-26 18:50:38
阅读次数:
82
1.编辑IKAnalyzer.cfg.xml文件 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <co ...
分类:
其他好文 时间:
2020-02-26 11:33:27
阅读次数:
134
ik分词是一款流行的elasticsearch 中文分词器,安装ik分词器版本一定要与所安装es版本一致。 安装步骤: 1、解压ik分词器安装包到plugin目录下,并删除压缩包。 2、重启elasticsearch进程即可。 3、如果是es集群的话,每台es都需要安装ik分词器。 测试: Curl ...
分类:
其他好文 时间:
2020-02-23 18:35:15
阅读次数:
92
Ansj分词器 导入jar包 ansj_seg-5.1.6.jar nlp-lang-1.7.8.jar maven配置 <dependency> <groupId>org.ansj</groupId> <artifactId>ansj_seg</artifactId> <version>5.1.1 ...
分类:
Web程序 时间:
2020-02-13 19:11:14
阅读次数:
97
什么是分词 把文本转换为一个个的单词,分词称之为analysis。es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体。 示例 如果想在某个索引下进行分词 es内置分词器 standard:默认分词,单词会被拆分,大小会转换为小写。 simple:按照非字母分词。大写转为小写。 ...
分类:
其他好文 时间:
2020-02-09 12:03:10
阅读次数:
87
本文引自 https://blog.csdn.net/caideb/article/details/81632154 cnblog的排版好看很多,所以在这里建一篇分享博客。 扩展字典中的词会被筛选出来,扩展停止词中的词会被过滤掉 1.没有加入扩展字典 停止词字典用法 1) ik分词器 [root@l ...
分类:
其他好文 时间:
2020-02-05 13:48:40
阅读次数:
158
在之前的程序中我们发现分词不太准确,因此我们可以使用支持中文分词。 分析器的执行过程: 从一个reader字符流开始,创建一个基于reader的tokenizer分词器,经过三个tokenfilter(第一个大写变小写,第二个用回车替换空格,去掉不需要的a,the,and,逗号等)生成tokens。 ...
分类:
Web程序 时间:
2020-02-01 21:10:22
阅读次数:
99