1.停用词 stop words: 在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。 停用词都是人工输入、或者由一个停用词表导入。 2.jieba是目前最好的 Python 中文分词组件,它主要有以下 3 种特性: 支持 3 种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析 ...
分类:
其他好文 时间:
2019-07-09 22:34:17
阅读次数:
160
一、中间件简介 1、基础概念 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。 2、分布式数 ...
分类:
系统相关 时间:
2019-07-09 00:23:17
阅读次数:
145
第一步:先导入jieba分词包 第二步:使用jieba分词的方法 常用的有:jieba.cut()、jieba.cut_for_search()和jieba.posseg.cut() 前者是无词性分词,中间为浏览器搜索,后者是有词性分词 其中jieba.cut()中除了需要加入被拆分的字符串还可以加 ...
分类:
编程语言 时间:
2019-07-07 17:48:58
阅读次数:
158
一、Elasticsearch单机安装 1.将es安装包传到服务器上 这是安装包 这里我是用的是WinSCP上传工具,上传到/home/plugins文件下。 进入Xshell,验证一下是否上传成功。 2.创建es目录 mkdir -p /usr/local/es(es1,es2,es3暂时不要安装 ...
分类:
其他好文 时间:
2019-07-07 16:06:40
阅读次数:
123
前段时间,领导要求出一个关键字提取的微服务,要求轻量级。 对于没写过微服务的一个小白来讲。硬着头皮上也不能说不会啊。 首先了解下公司目前的架构体系,发现并不是分布式开发,只能算是分模块部署。然后我需要写个Boot的服务,对外提供一个接口就行。 在上网浏览了下分词概念后,然后我选择了Gradle & ...
分类:
其他好文 时间:
2019-07-05 12:48:44
阅读次数:
784
1.jieba分词的安装 直接在cmd窗口当中pip install即可 2.jieba分词的介绍 jieba分词是目前比较好的中文分词组件之一,jieba分词支持三种模式的分词(精确模式、全模式、搜索引擎模式),并且支持自定义词典(这一点在特定的领域很重要,有时候需要根据领域的需要来添加特定的词典 ...
分类:
编程语言 时间:
2019-07-04 00:50:31
阅读次数:
168
隐马尔可夫模型(Hidden Markov Model,HMM)是用来描述一个含有隐含未知参数的马尔可夫过程。 本文阅读了2篇blog,理解其中的意思,附上自己的代码,共同学习。 一、理解隐马尔科夫 1.1 举例理解 来源:< http://www.cnblogs.com/skyme/p/46513 ...
分类:
其他好文 时间:
2019-06-28 17:59:55
阅读次数:
122
继做过了泰语分词,自动对对对联后对聊天机器人产生了浓厚的兴趣。ChatBot集合了NLP,DL等多领域的应用。 https://deeppavlov.ai/ https://www.rasa.com/ rasa主要基于任务,看框架还是deeppalov等符合我的兴趣。 更多内容待补充 ...
分类:
其他好文 时间:
2019-06-25 13:11:49
阅读次数:
99
第一次接触这个工具,是在研一上学期的一门课里。由于要做课程设计论文,我当时选择做中文分词处理,自然而然就接触到这个工具了。 但是呢,由于研究生研究方向与NLP无关,也就没有深入的研究过。 现在由于工作需要,特地重新来学习一番。 首先介绍我的电脑环境:win10+anaconda3 (python3. ...
分类:
其他好文 时间:
2019-06-24 00:32:41
阅读次数:
95
插入测试数据 查看生成的mapping: 结果(articleID除了显示type外,还有一个fields显示): type=text,默认会设置两个field,一个是field本身,比如articleID就是分词的;还有一个就是field.keyword(这里是articleID.keyword) ...
分类:
其他好文 时间:
2019-06-21 13:14:52
阅读次数:
557