修改配置文件:vim/etc/my.cnf[mysqld]ngram_token_size=2创建表:createtabletest(idint(11)notnullprimarykeyauto_increment,namevarchar(100)notnullcomment‘工商名‘,brandvarchar(100)defaultnullcomment‘品牌名‘,envarchar(100)d
分类:
数据库 时间:
2018-09-26 01:11:04
阅读次数:
771
1 public class WordCount { 2 static Directory directory; 3 // 创建分词器 4 static Analyzer analyzer = new IKAnalyzer(); 5 static IndexWriterConfig config =... ...
分类:
编程语言 时间:
2018-09-24 20:03:17
阅读次数:
237
ElasticSearch评分分析 explian 解释和一些查询理解 按照 "es ik分析器" 安装了ik分词器。然后创建了一个索引用来演示,创建索引: 。索引的结构如下: 实验环境为:单台的ElasticSearch6.3.2版本。索引配置如下: 由此可知,ElasticSearch创建索引时 ...
分类:
其他好文 时间:
2018-09-23 16:32:27
阅读次数:
184
画词云首先需要安装wordcloud(生成词云)和jieba(中文分词)。 先来说说wordcloud的安装吧,真是一波三折。首先用pip install wordcloud出现错误,说需要安装Visual C++ 14.0。折腾半天安装好Visual C++后,还是不行,按网上指点,下载第三方包安 ...
分类:
其他好文 时间:
2018-09-21 13:35:41
阅读次数:
354
简述:对于 Elasticsearch的分词插件的实现方式不唯一,比如,ES+ansj,ES+ik等,我这里使用的是ik,所以后面只对ik进行分词操作的演示。 当然这里要说明下,搜索引擎用于搜索,分词才是用于语句分割和依据词典进行识别的这里不要弄混,前几天在一个lucene+ansj的群里 出现过这... ...
分类:
其他好文 时间:
2018-09-20 15:56:02
阅读次数:
253
# 官方例程 # encoding=utf-8 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print("Full Mode: " + "/ ".join(seg_list)) # 全模式 输出: 【全模式】: 我/ 来到 ...
分类:
编程语言 时间:
2018-09-17 10:22:03
阅读次数:
191
1. 学习计划 1、案例分析:什么是全文检索,如何实现全文检索 2、Lucene实现全文检索的流程 a) 创建索引 b) 查询索引 3、配置开发环境 4、创建索引库 5、查询索引库 6、分析器的分析过程 a) 测试分析器的分词效果 b) 第三方中文分析器 7、索引库的维护 a) 添加文档 b) 删除 ...
分类:
Web程序 时间:
2018-09-15 18:20:12
阅读次数:
184
1 package com.gxy.ESChap01; 2 3 import java.net.InetAddress; 4 5 import org.elasticsearch.action.search.SearchRequestBuilder; 6 import org.elasticsear... ...
分类:
编程语言 时间:
2018-09-13 16:31:19
阅读次数:
836
? 全文搜索 ? solr安装 ? solr中文分词 ? solr数据库导入 ? solr数据查询 ? solrj接口调用 0 1:安装solr:官网下载解压;http://lucene.apache.org/solr/ 启动方法:bin目录下打开cmd; solr -e cloud -noprom ...
分类:
其他好文 时间:
2018-09-12 01:20:06
阅读次数:
205
原理 中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。表面上看,分词其实就是那么回事,但分词效果好不好对信息检索、实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的。 中文分词与英文分词有很大的不同,对英文而言,一个单词 ...
分类:
其他好文 时间:
2018-09-11 19:43:25
阅读次数:
174