码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
Manticore search加一个中文分词
Sphinx search 是一款非常棒的开源全文搜索引擎,它使用C++开发,索引和搜索的速度非常快,我使用sphinx的时间也有好多年了。最初使用的是coreseek,一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎,可惜后来不再更新,sphinxsearch的版本太低,bu ...
分类:其他好文   时间:2018-12-21 18:10:14    阅读次数:185
Python 自然语言处理
一. 中文分词技术 中文自动分词可主要归纳为“规则分词”“统计分词”和“混合分词”,规则分词主要是通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,但对新词很难进行处理,统计分词能够较好应对新词发现能特殊场景,但太过于依赖语料的质量,因此实践中多是采用两者的结合,即混合分词。 1.1 规则分 ...
分类:编程语言   时间:2018-12-17 02:42:01    阅读次数:173
jieba 分词简单应用
关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。 除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的 ...
分类:其他好文   时间:2018-12-15 18:47:29    阅读次数:201
全文检索
/// <summary> /// 盘古分词搜索 /// </summary> /// <param name="keyWords">关键字</param> [HttpGet] public IEnumerable<Goods> Search(string keyWord) { IList<stri ...
分类:其他好文   时间:2018-12-14 22:51:23    阅读次数:201
elasticsearch基本使用
elasticsearch 是java对lucence的封装,所以需要事先安装java。 它适用于全文索引,便捷的分布式,主要原理就是倒排索引。一般搜索某个关键字,是通过在一篇篇文章中查找这个关键字,而elasticsearch是存储的时候就将需要索引的内容进行分词,形成多个标签,查找时直接在标签索 ...
分类:其他好文   时间:2018-12-14 19:24:15    阅读次数:167
jieba库基本使用
概述: jieba是优秀的中文分词第三方库,jieba分词依靠中文词库 https://pypi.org/project/jieba/ 安装:pip install jieba import jieba jieba分词的三种模式 精确模式:把文本精确的分开,不存在冗余单词 全模式:把文本中所有可能的 ...
分类:其他好文   时间:2018-12-14 01:00:20    阅读次数:678
全文检索:haystack+elasticsearch
优点: 1.查询速度快 2.支持中文分词准备工作:安装es软件 1.拷贝到ubuntu 2.docker load -i 文件路径 3.配置 修改ip地址 4.docker run -dti --network=host --name=elasticsearch -v /home/python/el ...
分类:其他好文   时间:2018-12-13 23:26:41    阅读次数:295
实操重写IK分词器源码,基于mysql热更新词库
实操重写IK分词器源码,基于mysql热更新词库参考网址:https://blog.csdn.net/wuzhiwei549/article/details/80451302 问题一:按照这篇文章的介绍,遇到一个问题:No suitable driver found for jdbc:mysql,搞 ...
分类:数据库   时间:2018-12-12 20:32:02    阅读次数:228
Elasticsearch 检索相关
1、 检索所有文档 2、 term检索 term是代表完全匹配,也就是精确查询,搜索前不会再对搜索词进行分词,所以我们的搜索词必须是文档分词集合中的一个,如果没有安装分词插件,汉字分词按每个汉字来分。 3、 match检索 match查询会先对搜索词进行分词,分词完毕后再逐个对分词结果进行匹配,因此 ...
分类:其他好文   时间:2018-12-11 00:36:50    阅读次数:167
lucene的分词器宝典
分词器概念介绍: Analyzer类(分词器)就是把一段文本中的词按某些规则取出,提供和以后查询时使用的工具类,注意在创建索引时会用到分词器,在使用字符串搜索时也会用到分词器,这两个地方要使用同一个分词器,否则可能会搜索不出结果 分词器工作流程: 1, 切分关键词 2, 去除停用词 3, 对于英文单 ...
分类:Web程序   时间:2018-12-10 18:13:21    阅读次数:243
2158条   上一页 1 ... 53 54 55 56 57 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!