IK分词器插件 什么是Ik分词器? 分词:即把一段中文或者别的划分成一个个关键字,我们在搜索的的时候回把自己的信息进行分词,回把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词。 Ik分词器两种分词模式: ik_max_word: 会将文本做最细粒度的拆分 ...
目录 NLP基本流程 NLP应用场景 NLP技术流 一、自然语言处理的基本流程 分词 命名实体识别,主要有人名,地名,机构名等 词性标注,对分词后的词语进行语义标注 句法分析,主要是要构建语法树,标注单词,短语,句子的语法 语义分析,包括两部分:语义消歧,主要是针对多义词在文中的意思;语义角色标注,... ...
分类:
其他好文 时间:
2020-05-24 23:52:29
阅读次数:
90
倒排索引的初衷 倒排索引,它也是索引。索引,初衷都是为了快速检索到你要的数据。 我相信你一定知道mysql的索引,如果对某一个字段加了索引,一般来说查询该字段速度是可以有显著的提升。 每种数据库都有自己要解决的问题(或者说擅长的领域),对应的就有自己的数据结构,而不同的使用场景和数据结构,需要用不同 ...
分类:
其他好文 时间:
2020-05-23 13:04:30
阅读次数:
104
一、Docker 部署 ElasticSearch 1、拉取镜像 docker pull elasticsearch:6.4.0 2、创建自定义网络 (用于连接到连接到同一网络的其他服务(例如Kibana)) docker network create somenetwork 3、运行容器 Elas ...
分类:
其他好文 时间:
2020-05-22 21:15:29
阅读次数:
72
我希望对mxs自动排除后,让变量更加可读,setmaxsize,或者SETMAXSIZE,转变成setMaxSize,这就需要把单词给他分离开来 中文有jieba 英文有wordninja c 啥都没有 ...
分类:
编程语言 时间:
2020-05-21 19:57:33
阅读次数:
104
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...
分类:
其他好文 时间:
2020-05-21 10:23:57
阅读次数:
57
1.概述 Lexical Analysis of Chinese,简称 LAC,是一个联合的词法分析模型,在单个模型中完成中文分词、词性标注、专名识别任务。我们在自建的数据集上对分词、词性标注、专名识别进行整体的评估效果。主要通过标注来完成这些任务。 2.预测和损失函数 标注问题一般用crf来作为损 ...
分类:
其他好文 时间:
2020-05-21 00:32:49
阅读次数:
74
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h ...
分类:
其他好文 时间:
2020-05-20 20:26:30
阅读次数:
63
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 执行代码: 运行结果: 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # ...
分类:
其他好文 时间:
2020-05-20 20:13:08
阅读次数:
59
词干(word stem)表示每个单词的主体部分。词干提取(stemming)就是提取词干的过程,通常是删除常见的后缀来实现。 词形还原(lemmatization)考虑了单词在句子中的作用,单词的标准化形式为词元(lemma)。 词干提取和词形还原这两种处理方法都是标准化(normalizatio ...
分类:
其他好文 时间:
2020-05-19 01:11:38
阅读次数:
53