码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
中文分词简单理解及 jieba的简单运用
汉语分词中的基本问题:分词规范,歧义的切分和未登录词的识别 分词规范:(一般也就是指“词”的概念的纠缠不清的问题,),一方面来源于 单字词和词素之间的划界,另一方面就是词和短语(词组)的划界问题 歧义切分问题: 交集型切分歧义:汉字串AJB 其中 AJ,JB同时为词,此时的J 称作交集串 例如:结合 ...
分类:其他好文   时间:2019-01-01 15:26:12    阅读次数:236
ElasticSearch基本用法
测试环境:debian 9官网提供了 deb,rpm,源码下载 官方下载地址:https://www.elastic.co/downloads/elasticsearch 通过源码安装会遇到一些小问题,为了方便,我直接下载deb安装(我不确定通过deb安装是否需要java环境,因为我提前安装了ope ...
分类:其他好文   时间:2018-12-27 18:34:07    阅读次数:170
jieba分词与worldcloud词云
中文分词的优秀库。 安装:pip install jieba 主要有三种模式,但是最主要有一个函数 模式:精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式上,对长词再次切分 函数:jieba.lcut(str):精确模式,返回一 ...
分类:其他好文   时间:2018-12-25 23:42:29    阅读次数:260
Manticore search加一个中文分词
Sphinx search 是一款非常棒的开源全文搜索引擎,它使用C++开发,索引和搜索的速度非常快,我使用sphinx的时间也有好多年了。最初使用的是coreseek,一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎,可惜后来不再更新,sphinxsearch的版本太低,bu ...
分类:其他好文   时间:2018-12-21 18:10:14    阅读次数:185
Python 自然语言处理
一. 中文分词技术 中文自动分词可主要归纳为“规则分词”“统计分词”和“混合分词”,规则分词主要是通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,但对新词很难进行处理,统计分词能够较好应对新词发现能特殊场景,但太过于依赖语料的质量,因此实践中多是采用两者的结合,即混合分词。 1.1 规则分 ...
分类:编程语言   时间:2018-12-17 02:42:01    阅读次数:173
jieba库基本使用
概述: jieba是优秀的中文分词第三方库,jieba分词依靠中文词库 https://pypi.org/project/jieba/ 安装:pip install jieba import jieba jieba分词的三种模式 精确模式:把文本精确的分开,不存在冗余单词 全模式:把文本中所有可能的 ...
分类:其他好文   时间:2018-12-14 01:00:20    阅读次数:678
全文检索:haystack+elasticsearch
优点: 1.查询速度快 2.支持中文分词准备工作:安装es软件 1.拷贝到ubuntu 2.docker load -i 文件路径 3.配置 修改ip地址 4.docker run -dti --network=host --name=elasticsearch -v /home/python/el ...
分类:其他好文   时间:2018-12-13 23:26:41    阅读次数:295
搜索模板elasticsearch
搜索: like 对中文分词效率与支持都不太友好elasticsearch 实时的(效率高)、分布式(可扩展)的搜索和分析引擎,基于Lucene全文搜索引擎工具包,算法基于倒排索引算法(eg:一篇文章根据字典进行分词,然后根据字典进行倒排,倒排即在内存中存入某个字典,并且保存每个字典对应的文档,查找 ...
分类:其他好文   时间:2018-12-05 12:32:41    阅读次数:239
Elasticsearch实践(四):IK分词
环境:Elasticsearch 6.2.4 + Kibana 6.2.4 + ik 6.2.4 Elasticsearch默认也能对中文进行分词。 我们先来看看自带的中文分词效果: 结果: 我们发现,是按照每个字进行分词的。这种在实际应用里肯定达不到想要的效果。当然,如果是日志搜索,使用自带的就足 ...
分类:其他好文   时间:2018-12-01 00:11:45    阅读次数:225
Elasticsearch拼音分词和IK分词的安装及使用
一、Es插件配置及下载 1.IK分词器的下载安装 关于IK分词器的介绍不再多少,一言以蔽之,IK分词是目前使用非常广泛分词效果比较好的中文分词器。做ES开发的,中文分词十有八九使用的都是IK分词器。 下载地址:https://github.com/medcl/elasticsearch-analys ...
分类:其他好文   时间:2018-11-25 13:26:39    阅读次数:294
704条   上一页 1 ... 12 13 14 15 16 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!