前置知识: 词元字典文件(tis): 文件结构: TermInfos --> <TermInfo>TermCount TermInfo --> <Term, DocFreq, FreqDelta, ProxDelta, SkipDelta> 文件中的term按照从小到大排序,排序规则:先按照属性名排 ...
分类:
Web程序 时间:
2019-12-05 22:36:52
阅读次数:
115
一丶Solr简介 Apache Solr是一个流行的开源搜索服务器,它通过使用类似REST的HTTP API,这就确保你能从几乎任何编程语言来使用solr。Solr是一个开源搜索平台,用于构建搜索应用程序。 它建立在Lucene(全文搜索引擎)之上。 Solr是企业级的,快速的和高度可扩展的。 使用 ...
分类:
其他好文 时间:
2019-11-29 19:49:11
阅读次数:
95
此文摘自https://www.cnblogs.com/hengzhi/p/9290667.html ES默认对英文文本的分词器支持较好,但和lucene一样,如果需要对中文进行全文检索,那么需要使用中文分词器,同lucene一样,在使用中文全文检索前,需要集成IK分词器。 可以从GitHub上获取 ...
分类:
其他好文 时间:
2019-11-21 16:45:12
阅读次数:
69
注意由于更新差距不同版本可能导致有些工具不能正常使用 <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/ ...
分类:
Web程序 时间:
2019-11-20 15:31:55
阅读次数:
105
lucene 和 es 的前世今生 lucene 是最先进、功能最强大的搜索库。如果直接基于 lucene 开发,非常复杂,即便写一些简单的功能,也要写大量的 Java 代码,需要深入理解原理。 elasticsearch 基于 lucene,隐藏了 lucene 的复杂性,提供了简单易用的 res ...
分类:
其他好文 时间:
2019-11-20 14:10:06
阅读次数:
106
Apache Solr 远程代码执行漏洞(CVE 2019 12409) 简介 Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web service的API接口。是apache的顶级开源项目,使用java开发 ,基于lucene的全文检索服务器。 影响范围 Solr 8.1.1 Solr ...
分类:
其他好文 时间:
2019-11-20 12:57:43
阅读次数:
105
package com.xl.lucene;import java.io.File;import org.apache.commons.io.FileUtils;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.a ...
分类:
Web程序 时间:
2019-11-20 12:41:28
阅读次数:
67
流程图 一.创建文档 文档域 注: 每一个Doucment可以有多个field,不同的Document可以有不同的field,同一个Document可以有相同的field(域名和域值都相同) 每一个文档都有唯一的编号 二.分析文档 将文档中的大写转化成小写,清除 is a 标点 停用词等过程生成语汇 ...
分类:
Web程序 时间:
2019-11-19 11:56:24
阅读次数:
68
大数据从入门到入土 语言基础:java(Java se,javaweb) Linux 基础:Linux(shell,高并发架构,lucene,solr) 框架学习:Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) ...
分类:
其他好文 时间:
2019-11-16 21:47:53
阅读次数:
107
1.1. Lucene工具类 为了后面的开发、测试方便,这里编写一个工具类: 1 import java.io.IOException; 2 3 import java.nio.file.Paths; 4 5 import java.util.List; 6 7 8 9 import org.apa ...
分类:
Web程序 时间:
2019-11-15 14:37:23
阅读次数:
78