码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
算法之智能搜索(下)
以下内容,并未得到实质检测。因为笔者没有用到相关的需求,只是一时兴起,按照自己的思路探究了一下。并未考虑什么付费排名,词语优先级,搜索量排名,时效性等等的因素。娱乐一下呗,可能会被真正做过此类搜索的大神笑话,担待自己瞎想的。二、简单算法分词匹配:/**简单算法之*拆分用户输入框输入的语句,进行最大化匹配查询*@paramstr:用户输入的查询内容*Red_Ant20181124*/publicst
分类:编程语言   时间:2018-11-25 20:03:58    阅读次数:235
Elasticsearch拼音分词和IK分词的安装及使用
一、Es插件配置及下载 1.IK分词器的下载安装 关于IK分词器的介绍不再多少,一言以蔽之,IK分词是目前使用非常广泛分词效果比较好的中文分词器。做ES开发的,中文分词十有八九使用的都是IK分词器。 下载地址:https://github.com/medcl/elasticsearch-analys ...
分类:其他好文   时间:2018-11-25 13:26:39    阅读次数:294
springboot1.5.10兼容高版本6.1.1elasticsearch
1.引入依赖 2.配置信息: 3.es配置启动类: 4.操作工具类: ...
分类:编程语言   时间:2018-11-25 01:22:27    阅读次数:252
Lucene和Solr学习总结(1)
我们使用的百度搜索和电商网站的搜索功能一般都是基于Lucene实现的,Solr就是对Lucene进行的封装,就像Servlet和Struts2,SpringMvc一样 说的专业点就是全文检索 实现全文检索的流程的大致操作如下 这张图表现的很清晰,网上扒下来的 索引库中应该包含两部分,一部分是索引,一 ...
分类:Web程序   时间:2018-11-23 18:31:12    阅读次数:231
【Docker系列】认识ELK,docker安装ELK和IK分词器
1.ELK简介ELK是三个开源软件的缩写,分别表示:Elasticsearch,Logstash,Kibana,它们都是开源软件。新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具。Elasticsearch是个开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。它的特点有
分类:其他好文   时间:2018-11-22 00:24:48    阅读次数:189
Spark Word2Vec算法代码实现
分词结果: 分词结果部分数据: 模型: 结果: 分析: 预测结果与训练集数据紧密相关,Word2Vec会根据训练集中各词之间的紧密程度设置不同的相识度,因此,要想获得较好的预测结果,需要有合适的训练集! ...
分类:编程语言   时间:2018-11-21 12:26:23    阅读次数:318
python3-对某目录下的文本文件分词
frompathlibimportPathimportosimportrepathName=‘./‘fnLst=list(filter(lambdax:notx.is_dir(),Path(pathName).glob(‘**/*.txt‘)))print(fnLst)forfninfnLst:withopen(fn)asf:print()print(fn)forlineinf:forwordin
分类:编程语言   时间:2018-11-20 20:16:45    阅读次数:207
NLTK入门
首先要了解python的基本语法, 其中列表的处理,字符串的格式化,以及词汇的比较运算(包括判断某一个词语开头是否大小写等) 专有名词: 1. 分词:用于产生词汇和标点符号的链表 安装完NlLTK后, import nltk nltk.download() 计算text1中每个词的平均出现次数公式: ...
分类:其他好文   时间:2018-11-18 22:33:39    阅读次数:397
Snownlp
from snownlp import SnowNLP text='宝贝自拍很帅!!!注意休息~'s=SnowNLP(text)#分词print(s.words)#词性for tag in s.tags: print(tag)#情感度,积极的概率print(s.sentiments)#关键词prin ...
分类:其他好文   时间:2018-11-16 17:34:44    阅读次数:314
和我一起打造个简单搜索之IK分词以及拼音分词
elasticsearch 官方默认的分词插件,对中文分词效果不理想,它是把中文词语分成了一个一个的汉字。所以我们引入 es 插件 es ik。同时为了提升用户体验,引入 es pinyin 插件。本文介绍这两个 es 插件的安装。 <! more 环境 本文以及后续 es 系列文章都基于 5.5. ...
分类:其他好文   时间:2018-11-15 23:14:43    阅读次数:421
2158条   上一页 1 ... 55 56 57 58 59 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!