以下内容,并未得到实质检测。因为笔者没有用到相关的需求,只是一时兴起,按照自己的思路探究了一下。并未考虑什么付费排名,词语优先级,搜索量排名,时效性等等的因素。娱乐一下呗,可能会被真正做过此类搜索的大神笑话,担待自己瞎想的。二、简单算法分词匹配:/**简单算法之*拆分用户输入框输入的语句,进行最大化匹配查询*@paramstr:用户输入的查询内容*Red_Ant20181124*/publicst
分类:
编程语言 时间:
2018-11-25 20:03:58
阅读次数:
235
一、Es插件配置及下载 1.IK分词器的下载安装 关于IK分词器的介绍不再多少,一言以蔽之,IK分词是目前使用非常广泛分词效果比较好的中文分词器。做ES开发的,中文分词十有八九使用的都是IK分词器。 下载地址:https://github.com/medcl/elasticsearch-analys ...
分类:
其他好文 时间:
2018-11-25 13:26:39
阅读次数:
294
1.引入依赖 2.配置信息: 3.es配置启动类: 4.操作工具类: ...
分类:
编程语言 时间:
2018-11-25 01:22:27
阅读次数:
252
我们使用的百度搜索和电商网站的搜索功能一般都是基于Lucene实现的,Solr就是对Lucene进行的封装,就像Servlet和Struts2,SpringMvc一样 说的专业点就是全文检索 实现全文检索的流程的大致操作如下 这张图表现的很清晰,网上扒下来的 索引库中应该包含两部分,一部分是索引,一 ...
分类:
Web程序 时间:
2018-11-23 18:31:12
阅读次数:
231
1.ELK简介ELK是三个开源软件的缩写,分别表示:Elasticsearch,Logstash,Kibana,它们都是开源软件。新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具。Elasticsearch是个开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。它的特点有
分类:
其他好文 时间:
2018-11-22 00:24:48
阅读次数:
189
分词结果: 分词结果部分数据: 模型: 结果: 分析: 预测结果与训练集数据紧密相关,Word2Vec会根据训练集中各词之间的紧密程度设置不同的相识度,因此,要想获得较好的预测结果,需要有合适的训练集! ...
分类:
编程语言 时间:
2018-11-21 12:26:23
阅读次数:
318
frompathlibimportPathimportosimportrepathName=‘./‘fnLst=list(filter(lambdax:notx.is_dir(),Path(pathName).glob(‘**/*.txt‘)))print(fnLst)forfninfnLst:withopen(fn)asf:print()print(fn)forlineinf:forwordin
分类:
编程语言 时间:
2018-11-20 20:16:45
阅读次数:
207
首先要了解python的基本语法, 其中列表的处理,字符串的格式化,以及词汇的比较运算(包括判断某一个词语开头是否大小写等) 专有名词: 1. 分词:用于产生词汇和标点符号的链表 安装完NlLTK后, import nltk nltk.download() 计算text1中每个词的平均出现次数公式: ...
分类:
其他好文 时间:
2018-11-18 22:33:39
阅读次数:
397
from snownlp import SnowNLP text='宝贝自拍很帅!!!注意休息~'s=SnowNLP(text)#分词print(s.words)#词性for tag in s.tags: print(tag)#情感度,积极的概率print(s.sentiments)#关键词prin ...
分类:
其他好文 时间:
2018-11-16 17:34:44
阅读次数:
314
elasticsearch 官方默认的分词插件,对中文分词效果不理想,它是把中文词语分成了一个一个的汉字。所以我们引入 es 插件 es ik。同时为了提升用户体验,引入 es pinyin 插件。本文介绍这两个 es 插件的安装。 <! more 环境 本文以及后续 es 系列文章都基于 5.5. ...
分类:
其他好文 时间:
2018-11-15 23:14:43
阅读次数:
421