solr服务器配置好在搜索时经常会搜出无关内容,把不该分的词给分了,导致客户找不到自己需要的内容,那么我们就从配置词典入手解决这个问题。 首先需要知道自带的词典含义: 停止词:停止词是无功能意义的词,比如is 、a 、are 、”的”,“得”,“我” 等,这些词会在句子中多次出现却无意义,所以在分词 ...
分类:
其他好文 时间:
2018-07-21 00:46:59
阅读次数:
175
简介:下面讲有我已经打包并且编辑过的zip包,你可以在下面下载即可。 1、下载zip包。elasticsearch-analysis-ik-1.8.0.jar下面有附件链接【ik-安装包.zip】,下载即可。(内有做好的elasticsearch-analysis-ik-1.8.0.jar) 2、上 ...
分类:
其他好文 时间:
2018-07-20 01:18:52
阅读次数:
195
1、下载下载地址为: https://github.com/medcl/elasticsearch-analysis-ik 2、解压把下载的 elasticsearch-analysis-ik.zip解压。 3、Maven打包进入elasticsearch-analysis-ik-master/ 下 ...
分类:
其他好文 时间:
2018-07-20 01:12:24
阅读次数:
147
读取 Mongo 中的短评数据,进行中文分词 对分词结果取 Top50 生成词云 生成词云效果 看来网上关于 我不是药神 vs 达拉斯 的争论很热啊。关于词频统计就这些,代码中也会完成一些其它的分析任务(其实都是一些很简单的任务,纯练手用),后续会持续更新。 其它分析任务 点赞数 Top10 aut ...
分类:
编程语言 时间:
2018-07-20 01:11:04
阅读次数:
180
首先,不知道大家在前面的例子中没有试着搜索文本串,就是在第二节,我们添加了很多文档。如果字段值是一个文本。你如果只搜索这个字段的某个单词,是不是发现搜不到? 这就是因为我们没有配置Analyzer,因此在搜索的时候会“全匹配”。可以从直观感觉上理解为SQL的 like和= 的区别。 通过前面这段引文 ...
分类:
其他好文 时间:
2018-07-19 16:06:01
阅读次数:
156
一、solr查询,查询配置了查询分词器的字段,默认会对查询关键字做分词处理 1、如查询关键字F1501ZY000011,使用solr7自带的中文分词器,默认会分词为:f,1501,zy,000011 2、不使用defType=edismax参数的查询结果 二、使用参数defType=edismax& ...
分类:
其他好文 时间:
2018-07-19 14:53:00
阅读次数:
659
最近,很多朋友问我solr 中文分词配置的问题,都不知道怎么配置,怎么使用,原以为很简单,没想到这么多朋友都有问题,所以今天就总结总结中文分词的配置吧。 有的时候,用户搜索的关键字,可能是一句话,不是很规范。所以在 Solr 中查询出的时候,就需要将用户输入的关键字进行分词。 目前有很多优秀的中文分 ...
分类:
其他好文 时间:
2018-07-19 14:50:41
阅读次数:
241
在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名、地名等需要考虑作为一个整体,比如New York)。而对于中文还有其他类似形式的语言,我们需要根据来特殊处理分词。而在中文分词中最好用的方法可以说是jieba分词。接下来我们来介绍下jieba分词的特点、原 ...
分类:
编程语言 时间:
2018-07-18 20:47:32
阅读次数:
1682
ElasticSearch,简称ES, 是一个基于Lucene的分布式全文搜索服务器,和SQL Server的全文索引(Fulltext Index)有点类似,都是基于分词和分段的全文搜索引擎,具有分词,同义词,词干查询的功能,但是ES天生具有分布式和实时的属性。 一,安装Java SE环境 安装J ...
背景 前端高亮需要分词服务,nlp团队提供的分词服务需要跨域调用,而且后台数据索引使用的IK分词。综合评价,前端分词也需要基于IK分词器。 IKAnalyzer服务已经停止更新,且对Lucene支持仅测试到4.x.x版本(6.x.x会出现异常),因此使用IK分词器时需要解决一些异常。 依赖 项目以及... ...
分类:
其他好文 时间:
2018-07-17 10:33:27
阅读次数:
585