搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

本篇对中文分词器IK作了简单的讲解，市面上流行的中文分词器很多，如果我们遇到有中文分词的需求，货比三家是永远不过时的道理，调研可能要花费一些时间，但能挑到适合自己项目的分词器，还是划算的

分类：其他好文时间：2020-06-11 12:05:12 阅读次数：61

一 Elasticsearch插件介绍 es插件是一种增强Elasticsearch核心功能的途径。它们可以为es添加自定义映射类型、自定义分词器、原生脚本、自伸缩等等扩展功能。 es插件包含JAR文件，也可能包含脚本和配置文件，并且必须在集群中的每个节点上安装。安装之后，需要重启集群中的每个节点才 ...

分类：其他好文时间：2020-06-09 16:30:29 阅读次数：152

Elastic Stack：es Mapping映射入门

一.概念概念：自动或手动为index中的_doc建立的一种数据结构和相关配置，简称为mapping映射。动态映射：dynamic mapping，自动为我们建立index，以及对应的mapping，mapping中包含了每个field对应的数据类型，以及如何分词等设置。我们当然也可以手动在创建 ...

分类：移动开发时间：2020-06-09 14:54:55 阅读次数：81

12朴素贝叶斯-垃圾邮件分类

1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 2.邮件预处理邮件分句句子分词大小写，标点符号，去掉过短的单词词性还原：复数、时态、比较级连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...

分类：其他好文时间：2020-06-09 09:49:32 阅读次数：77

细说MongoDB

细说MongoDB，深入介绍MongoDB的开发、运维、架构设计与行业案例！

分类：数据库时间：2020-06-08 00:15:52 阅读次数：61

12.朴素贝叶斯-垃圾邮件分类

12.朴素贝叶斯-垃圾邮件分类 1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 2.邮件预处理邮件分句名子分词去掉过短的单词词性还原连接成字符串传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download ...

分类：其他好文时间：2020-06-07 15:10:03 阅读次数：82

12.朴素贝叶斯-垃圾邮件分类

1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 2.邮件预处理邮件分句句子分词大小写，标点符号，去掉过短的单词词性还原：复数、时态、比较级连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...

分类：其他好文时间：2020-06-07 14:56:00 阅读次数：66

正则表达式：去除Unicode

背景：最近在做中文分词的时候，发现分词后的数据中出现很多特殊字符，即使进行了去停用词操作，但是特殊字符太多，也不可能都加到停用词里，所以就准备用正则去掉，正则很简单，直接上代码： /** * 正则去掉unicode等特殊字符 * */ private static String regularFil ...

分类：其他好文时间：2020-06-04 16:52:49 阅读次数：84

jieba库的使用

jieba是python的第三方库，使用jieba库需要先安装。jieba是一个中文分词库，可以根据所给的中文句子，提取出可能的词组 jieba库分词依靠词库。利用中文词库，确定汉字之间的关联概率。概率大的组成词组，形成分词效果。除了分词，用户还可以添加自定义的词组 jieba提供了三种分词模式，精 ...

分类：其他好文时间：2020-05-31 18:11:27 阅读次数：429

python词云和数据可视化

import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud #读取指定文件 f = open(r'.\data.txt', encoding='utf-8').read() #对数据进行jieba中文分词， ...

分类：编程语言时间：2020-05-26 15:35:46 阅读次数：94