码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
Windows使用Ik分词器插件
IK分词器插件 什么是Ik分词器? 分词:即把一段中文或者别的划分成一个个关键字,我们在搜索的的时候回把自己的信息进行分词,回把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词。 Ik分词器两种分词模式: ik_max_word: 会将文本做最细粒度的拆分 ...
分类:Windows程序   时间:2020-05-26 01:20:54    阅读次数:88
【NLP-00-1】NLP简述
目录 NLP基本流程 NLP应用场景 NLP技术流 一、自然语言处理的基本流程 分词 命名实体识别,主要有人名,地名,机构名等 词性标注,对分词后的词语进行语义标注 句法分析,主要是要构建语法树,标注单词,短语,句子的语法 语义分析,包括两部分:语义消歧,主要是针对多义词在文中的意思;语义角色标注,... ...
分类:其他好文   时间:2020-05-24 23:52:29    阅读次数:90
【漫画】ES原理 必知必会的倒排索引和分词
倒排索引的初衷 倒排索引,它也是索引。索引,初衷都是为了快速检索到你要的数据。 我相信你一定知道mysql的索引,如果对某一个字段加了索引,一般来说查询该字段速度是可以有显著的提升。 每种数据库都有自己要解决的问题(或者说擅长的领域),对应的就有自己的数据结构,而不同的使用场景和数据结构,需要用不同 ...
分类:其他好文   时间:2020-05-23 13:04:30    阅读次数:104
Docker 部署 ElasticSearch、ElasticSearch-Head、IK分词器
一、Docker 部署 ElasticSearch 1、拉取镜像 docker pull elasticsearch:6.4.0 2、创建自定义网络 (用于连接到连接到同一网络的其他服务(例如Kibana)) docker network create somenetwork 3、运行容器 Elas ...
分类:其他好文   时间:2020-05-22 21:15:29    阅读次数:72
python 无空格分词
我希望对mxs自动排除后,让变量更加可读,setmaxsize,或者SETMAXSIZE,转变成setMaxSize,这就需要把单词给他分离开来 中文有jieba 英文有wordninja c 啥都没有 ...
分类:编程语言   时间:2020-05-21 19:57:33    阅读次数:104
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...
分类:其他好文   时间:2020-05-21 10:23:57    阅读次数:57
LexicalAnalysis
1.概述 Lexical Analysis of Chinese,简称 LAC,是一个联合的词法分析模型,在单个模型中完成中文分词、词性标注、专名识别任务。我们在自建的数据集上对分词、词性标注、专名识别进行整体的评估效果。主要通过标注来完成这些任务。 2.预测和损失函数 标注问题一般用crf来作为损 ...
分类:其他好文   时间:2020-05-21 00:32:49    阅读次数:74
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...
分类:其他好文   时间:2020-05-20 20:26:30    阅读次数:63
垃圾邮件处理
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 执行代码: 运行结果: 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # ...
分类:其他好文   时间:2020-05-20 20:13:08    阅读次数:59
【465】词干提取与词形还原
词干(word stem)表示每个单词的主体部分。词干提取(stemming)就是提取词干的过程,通常是删除常见的后缀来实现。 词形还原(lemmatization)考虑了单词在句子中的作用,单词的标准化形式为词元(lemma)。 词干提取和词形还原这两种处理方法都是标准化(normalizatio ...
分类:其他好文   时间:2020-05-19 01:11:38    阅读次数:53
2158条   上一页 1 ... 9 10 11 12 13 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!