https://github.com/sunkaifei/FlyCmshttps://github.com/wks/ik-analyzerIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初 ...
分类:
其他好文 时间:
2020-02-20 14:57:09
阅读次数:
284
Elasticsearch(ES)是一个基于Lucene构建开源分布式搜索引擎并提供Restful接口。 Es是一个分布式文档数据库(JSON数据格式存储,类似MongoDB),JSON中的每个字段数据都可作为搜索条件,并且能够扩展至数以百计的服务器存储以及处理PB(PetaByte)级的数据。可在 ...
分类:
其他好文 时间:
2020-02-17 11:52:56
阅读次数:
74
Ansj分词器 导入jar包 ansj_seg-5.1.6.jar nlp-lang-1.7.8.jar maven配置 <dependency> <groupId>org.ansj</groupId> <artifactId>ansj_seg</artifactId> <version>5.1.1 ...
分类:
Web程序 时间:
2020-02-13 19:11:14
阅读次数:
97
Hadoop是什么? 1. Hadoop是由Apache基金会所开发的分布式系统基础架构 2. 主要解决,海量数据的存储和海量数据的分析计算问题 3. 广义上来说,Hadoop通常是指一个更广泛的概念— Hadoop生态圈 Hadoop发展历史 1. Lucene框架是Doug Cutting开创的 ...
分类:
其他好文 时间:
2020-02-07 01:25:12
阅读次数:
79
1.今天学习完了solr&lucene,但是最后的案例不是太明白,因为没有学spring和springmvc,因此需要想继续学习。 2.明天学习mybatis。 感受:学习顺序真的很重要,否则你就会像我一样,需要有前置的你听不明白,不明白架构的方式,但还是需要继续努力,继续学下去,android s ...
分类:
其他好文 时间:
2020-02-06 01:36:21
阅读次数:
75
接着上个博客,用浏览器打开solr之后的界面: Dashboard:仪表盘,显示了该solr实例开始运行的时间、版本、系统资源,jvm等信息 Logging:solr的运行日志,如果出现问题会告诉你什么问题。 Core Admin:solr core 的管理界面。solr core是solr 的一个 ...
分类:
Web程序 时间:
2020-02-03 09:16:31
阅读次数:
114
前言 一般的, mapping 可以分为 动态映射(dynamic mapping) 和 静态(显示) 映射 (explicit mapping) 和精准(严格) 映射(strict mapping) 具体由dynamic 属性控制 动态映射(dynamic: true) 创建一个索引 PUT m1 ...
分类:
移动开发 时间:
2020-02-02 22:03:19
阅读次数:
104
增加新内容的时候,或者删除的时候我们需要对索引进行增删改查来进行索引的维护。 先上代码: package come.me.lucene; //索引维护 import java.io.File; import org.apache.lucene.analysis.Analyzer; import or ...
分类:
Web程序 时间:
2020-02-01 23:15:50
阅读次数:
95
在之前的程序中我们发现分词不太准确,因此我们可以使用支持中文分词。 分析器的执行过程: 从一个reader字符流开始,创建一个基于reader的tokenizer分词器,经过三个tokenfilter(第一个大写变小写,第二个用回车替换空格,去掉不需要的a,the,and,逗号等)生成tokens。 ...
分类:
Web程序 时间:
2020-02-01 21:10:22
阅读次数:
99
创建完索引之后,我们需要查询。 百度的查询接口及结果如图所示: 具体步骤已经在上个博客中写到,直接上代码:(由于是一个完整的程序,我把创建索引的代码也post上) package come.me.lucene; import static org.junit.jupiter.api.Assertio ...
分类:
Web程序 时间:
2020-02-01 20:59:33
阅读次数:
95