搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

Windows使用Ik分词器插件

IK分词器插件什么是Ik分词器? 分词：即把一段中文或者别的划分成一个个关键字，我们在搜索的的时候回把自己的信息进行分词，回把数据库中或者索引库中的数据进行分词，然后进行一个匹配操作，默认的中文分词是将每个字看成一个词。 Ik分词器两种分词模式： ik_max_word: 会将文本做最细粒度的拆分 ...

分类：Windows程序时间：2020-05-26 01:20:54 阅读次数：88

【NLP-00-1】NLP简述

目录 NLP基本流程 NLP应用场景 NLP技术流一、自然语言处理的基本流程分词命名实体识别，主要有人名，地名，机构名等词性标注，对分词后的词语进行语义标注句法分析，主要是要构建语法树，标注单词，短语，句子的语法语义分析，包括两部分：语义消歧，主要是针对多义词在文中的意思；语义角色标注，... ...

分类：其他好文时间：2020-05-24 23:52:29 阅读次数：90

【漫画】ES原理必知必会的倒排索引和分词

倒排索引的初衷倒排索引，它也是索引。索引，初衷都是为了快速检索到你要的数据。我相信你一定知道mysql的索引，如果对某一个字段加了索引，一般来说查询该字段速度是可以有显著的提升。每种数据库都有自己要解决的问题（或者说擅长的领域），对应的就有自己的数据结构，而不同的使用场景和数据结构，需要用不同 ...

分类：其他好文时间：2020-05-23 13:04:30 阅读次数：104

Docker 部署 ElasticSearch、ElasticSearch-Head、IK分词器

一、Docker 部署 ElasticSearch 1、拉取镜像 docker pull elasticsearch:6.4.0 2、创建自定义网络 (用于连接到连接到同一网络的其他服务(例如Kibana)) docker network create somenetwork 3、运行容器 Elas ...

分类：其他好文时间：2020-05-22 21:15:29 阅读次数：72

python 无空格分词

我希望对mxs自动排除后，让变量更加可读，setmaxsize，或者SETMAXSIZE，转变成setMaxSize，这就需要把单词给他分离开来中文有jieba 英文有wordninja c 啥都没有 ...

分类：编程语言时间：2020-05-21 19:57:33 阅读次数：104

12.朴素贝叶斯-垃圾邮件分类

1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 2.邮件预处理邮件分句名子分词去掉过短的单词词性还原连接成字符串传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...

分类：其他好文时间：2020-05-21 10:23:57 阅读次数：57

LexicalAnalysis

1.概述 Lexical Analysis of Chinese，简称 LAC，是一个联合的词法分析模型，在单个模型中完成中文分词、词性标注、专名识别任务。我们在自建的数据集上对分词、词性标注、专名识别进行整体的评估效果。主要通过标注来完成这些任务。 2.预测和损失函数标注问题一般用crf来作为损 ...

分类：其他好文时间：2020-05-21 00:32:49 阅读次数：74

12.朴素贝叶斯-垃圾邮件分类

1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 2.邮件预处理邮件分句名子分词去掉过短的单词词性还原连接成字符串传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...

分类：其他好文时间：2020-05-20 20:26:30 阅读次数：63

垃圾邮件处理

1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组执行代码：运行结果： 2.邮件预处理邮件分句名子分词去掉过短的单词词性还原连接成字符串传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # ...

分类：其他好文时间：2020-05-20 20:13:08 阅读次数：59

【465】词干提取与词形还原

词干（word stem）表示每个单词的主体部分。词干提取（stemming）就是提取词干的过程，通常是删除常见的后缀来实现。词形还原（lemmatization）考虑了单词在句子中的作用，单词的标准化形式为词元（lemma）。词干提取和词形还原这两种处理方法都是标准化（normalizatio ...

分类：其他好文时间：2020-05-19 01:11:38 阅读次数：53