搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

NLP杂点

1.停用词 stop words: 在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词。停用词都是人工输入、或者由一个停用词表导入。 2.jieba是目前最好的 Python 中文分词组件，它主要有以下 3 种特性：支持 3 种分词模式：精确模式，试图将句子最精确地切开，适合文本分析 ...

分类：其他好文时间：2019-07-09 22:34:17 阅读次数：160

Linux系统：centos7下搭建ElasticSearch中间件，常用接口演示

一、中间件简介 1、基础概念 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。 2、分布式数 ...

分类：系统相关时间：2019-07-09 00:23:17 阅读次数：145

jieba分词算法使用

第一步：先导入jieba分词包第二步：使用jieba分词的方法常用的有：jieba.cut()、jieba.cut_for_search()和jieba.posseg.cut() 前者是无词性分词，中间为浏览器搜索，后者是有词性分词其中jieba.cut()中除了需要加入被拆分的字符串还可以加 ...

分类：编程语言时间：2019-07-07 17:48:58 阅读次数：158

Elasticsearch单机安装_集群搭建_索引基本操作_Head插件安装与基本操作_ik分词器配置_logstash实现数据同步_教程

一、Elasticsearch单机安装 1.将es安装包传到服务器上这是安装包这里我是用的是WinSCP上传工具，上传到/home/plugins文件下。进入Xshell，验证一下是否上传成功。 2.创建es目录 mkdir -p /usr/local/es（es1，es2，es3暂时不要安装 ...

分类：其他好文时间：2019-07-07 16:06:40 阅读次数：123

HanLP 关键词提取。入门篇

前段时间，领导要求出一个关键字提取的微服务，要求轻量级。对于没写过微服务的一个小白来讲。硬着头皮上也不能说不会啊。首先了解下公司目前的架构体系，发现并不是分布式开发，只能算是分模块部署。然后我需要写个Boot的服务，对外提供一个接口就行。在上网浏览了下分词概念后，然后我选择了Gradle & ...

分类：其他好文时间：2019-07-05 12:48:44 阅读次数：784

中文自然语言处理(NLP)(一)python jieba模块

1.jieba分词的安装直接在cmd窗口当中pip install即可 2.jieba分词的介绍 jieba分词是目前比较好的中文分词组件之一，jieba分词支持三种模式的分词(精确模式、全模式、搜索引擎模式)，并且支持自定义词典(这一点在特定的领域很重要，有时候需要根据领域的需要来添加特定的词典 ...

分类：编程语言时间：2019-07-04 00:50:31 阅读次数：168

HMM（隐马尔科夫）用于中文分词

隐马尔可夫模型（Hidden Markov Model，HMM）是用来描述一个含有隐含未知参数的马尔可夫过程。本文阅读了2篇blog，理解其中的意思，附上自己的代码，共同学习。一、理解隐马尔科夫 1.1 举例理解来源：< http://www.cnblogs.com/skyme/p/46513 ...

分类：其他好文时间：2019-06-28 17:59:55 阅读次数：122

【ML】聊天机器人

继做过了泰语分词，自动对对对联后对聊天机器人产生了浓厚的兴趣。ChatBot集合了NLP，DL等多领域的应用。 https://deeppavlov.ai/ https://www.rasa.com/ rasa主要基于任务，看框架还是deeppalov等符合我的兴趣。更多内容待补充 ...

分类：其他好文时间：2019-06-25 13:11:49 阅读次数：99

1.3 jieba中文处理+安装

第一次接触这个工具，是在研一上学期的一门课里。由于要做课程设计论文，我当时选择做中文分词处理，自然而然就接触到这个工具了。但是呢，由于研究生研究方向与NLP无关，也就没有深入的研究过。现在由于工作需要，特地重新来学习一番。首先介绍我的电脑环境：win10+anaconda3 (python3. ...

分类：其他好文时间：2019-06-24 00:32:41 阅读次数：95

es使用term+filter查询（对type为text的查询注意点）

插入测试数据查看生成的mapping：结果（articleID除了显示type外，还有一个fields显示）： type=text，默认会设置两个field，一个是field本身，比如articleID就是分词的；还有一个就是field.keyword（这里是articleID.keyword） ...

分类：其他好文时间：2019-06-21 13:14:52 阅读次数：557

共2158条上一页 1 ... 39 40 41 42 43 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)