码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
Elasticsearch系列---使用中文分词器
本篇对中文分词器IK作了简单的讲解,市面上流行的中文分词器很多,如果我们遇到有中文分词的需求,货比三家是永远不过时的道理,调研可能要花费一些时间,但能挑到适合自己项目的分词器,还是划算的
分类:其他好文   时间:2020-06-11 12:05:12    阅读次数:61
ElasticSearch 插件
一 Elasticsearch插件介绍 es插件是一种增强Elasticsearch核心功能的途径。它们可以为es添加自定义映射类型、自定义分词器、原生脚本、自伸缩等等扩展功能。 es插件包含JAR文件,也可能包含脚本和配置文件,并且必须在集群中的每个节点上安装。安装之后,需要重启集群中的每个节点才 ...
分类:其他好文   时间:2020-06-09 16:30:29    阅读次数:152
Elastic Stack:es Mapping映射入门
一.概念 概念:自动或手动为index中的_doc建立的一种数据结构和相关配置,简称为mapping映射。 动态映射:dynamic mapping,自动为我们建立index,以及对应的mapping,mapping中包含了每个field对应的数据类型,以及如何分词等设置。 我们当然也可以手动在创建 ...
分类:移动开发   时间:2020-06-09 14:54:55    阅读次数:81
12朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:其他好文   时间:2020-06-09 09:49:32    阅读次数:77
细说MongoDB
细说MongoDB,深入介绍MongoDB的开发、运维、架构设计与行业案例!
分类:数据库   时间:2020-06-08 00:15:52    阅读次数:61
12.朴素贝叶斯-垃圾邮件分类
12.朴素贝叶斯-垃圾邮件分类 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download ...
分类:其他好文   时间:2020-06-07 15:10:03    阅读次数:82
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:其他好文   时间:2020-06-07 14:56:00    阅读次数:66
正则表达式:去除Unicode
背景:最近在做中文分词的时候,发现分词后的数据中出现很多特殊字符,即使进行了去停用词操作,但是特殊字符太多,也不可能都加到停用词里,所以就准备用正则去掉,正则很简单,直接上代码: /** * 正则去掉unicode等特殊字符 * */ private static String regularFil ...
分类:其他好文   时间:2020-06-04 16:52:49    阅读次数:84
jieba库的使用
jieba是python的第三方库,使用jieba库需要先安装。jieba是一个中文分词库,可以根据所给的中文句子,提取出可能的词组 jieba库分词依靠词库。利用中文词库,确定汉字之间的关联概率。概率大的组成词组,形成分词效果。除了分词,用户还可以添加自定义的词组 jieba提供了三种分词模式,精 ...
分类:其他好文   时间:2020-05-31 18:11:27    阅读次数:429
python词云和数据可视化
import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud #读取指定文件 f = open(r'.\data.txt', encoding='utf-8').read() #对数据进行jieba中文分词, ...
分类:编程语言   时间:2020-05-26 15:35:46    阅读次数:94
2158条   上一页 1 ... 8 9 10 11 12 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!