此文针对局域网环境(非公网环境),提供ElasticSearch 5.5.2的完整安装及配置教程,包括ES的kibana插件、IK中文分词插件安装及配置。 另外,文章最后提供安装配置环境涉及到的所有安装包及参考指南,供大家学习。 环境准备 安装环境 Linux环境,内网测试版本为:Red Hat E ...
分类:
其他好文 时间:
2018-05-11 20:41:37
阅读次数:
850
2018.5.10日记 1.将sql数据库的内容添加到索引库中, public static readonly IndexManager instance; //静态构造函数,CLR只执行一次 static IndexManager() { instance = new IndexManager() ...
分类:
Web程序 时间:
2018-05-10 21:44:13
阅读次数:
238
ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,Kibana是数据分析展示平台。ES让人惊艳的是他强大的搜索相关能力和灾备策略,ES开放了一些接口供开发者研发自己的插件,ES结合中文分词的 ...
分类:
其他好文 时间:
2018-05-10 19:37:21
阅读次数:
178
Lucene复习: 1、什么是lucene:全文检索工具包 2、Lucene的工作原理: 索引数据的创建 从原始文件中提取一些可以用来搜索的数据(封装成各种Field),把各field再封装成document,然后对document进行分析(对各字段分词),得到一些索引目录写入索引库,documen ...
分类:
其他好文 时间:
2018-05-10 19:33:09
阅读次数:
139
例子的组件版本 Lucene.Net:3.0.3.0 盘古分词:2.4.0.0 分词例子 分词是核心算法,将完整的句子分词成若干个词或字;同时它只能处理文本信息,非文本信息只能转换成为文本信息,无法转换的只能放弃。 所有供全文搜索的要先写入索引库,索引库可以看成存放数据的数据库 搜索对象建立的时候( ...
分类:
Web程序 时间:
2018-05-10 00:32:12
阅读次数:
189
coreseek是封装好的sphinx服务,因此安装coreseek即可;mmseg是分词服务1、安装依赖yuminstallmakegccg++gcc-c++libtoolautoconfautomakeimakemysql-devellibxml2-develexpat-develpython-devel2、下载coreseekwgethttp://files.opstool.com/man/
分类:
其他好文 时间:
2018-05-07 16:44:07
阅读次数:
151
一、Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在pom.xml里面引入如下依赖 3. 新建一个标准分词器StandardAnalyzer的测试类Luc ...
分类:
Web程序 时间:
2018-05-05 12:34:28
阅读次数:
201
一、Lucene介绍 1. Lucene简介 最受欢迎的java开源全文搜索引擎开发工具包。提供了完整的查询引擎和索引引擎,部分文本分词引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便在目标系统中实现全文检索功能,或者是以此为基础建立起完整的全文检索 ...
分类:
Web程序 时间:
2018-05-04 23:24:31
阅读次数:
379
HanLP用户自定义词典源码分析 1. 官方文档及参考链接 关于词典问题Issue,首先参考: "FAQ" 自定义词典其实是基于 规则 的分词,它的用法参考 "这个issue" 如果有些数量词、字母词需要分词,可参考: "P2P和C2C这种词没有分出来,希望加到主词库" 关于词性标注:可参考 "词性 ...
分类:
其他好文 时间:
2018-05-04 21:26:48
阅读次数:
579
jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个词语 jieba是优秀的中文分词第三方库,需要额外安装 (pip install jieba) jieba库提供三种分词模式,最简单只需掌握一个函数 jieba分词原理 利用一个中文词库,确定汉字之间的关系概率 汉字之间概率大的组成词组 ...
分类:
编程语言 时间:
2018-05-01 23:27:12
阅读次数:
468