搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

elasticsearch 安装hanlp插件

1.HanLP分词器插件下载地址https://github.com/pengcong90/elasticsearch-analysis-hanlp/releases下载analysis-hanlp.zip 2.解压到ElasticSearch下plugins目录下 3.配置修改analysis-h ...

分类：其他好文时间：2019-03-12 09:25:49 阅读次数：542

Elasticsearch 重要概念小计

核心数据类型text&keywordText：1:支持分词，全文检索,支持模糊、精确查询,不支持聚合,排序操作;2:test类型的最大支持的字符长度无限制,适合大字段存储；使用场景：存储全文搜索数据,例如:邮箱内容、地址、代码块、博客文章内容等。默认结合standardanalyzer(标准解析器)对文本进行分词、倒排索引。默认结合标准分析器进行词命中、词频相关度打分。keyword：1:

分类：其他好文时间：2019-03-11 16:19:37 阅读次数：235

2018-10-30 浏览器插件-离线英汉词典 0.0.7

新添功能: 添加词形变化信息, 如查询"get"显示: 过去分词: got; 过去式: got; 现在分词: getting; 第三人称单数: gets; 弹窗中显示处理后的英文, 比如, 查询"Task", 弹窗中会显示"task". 提供输入框, 可供当无法选中页面中的文本或者手动输入后按回车键 ...

分类：其他好文时间：2019-03-10 09:36:38 阅读次数：179

java使用Ansj实现字符串分词

需要两个jar包 ansj_seg.jar nlp-lang ...

分类：编程语言时间：2019-03-07 14:15:52 阅读次数：279

精读《syntax-parser 源码》

1. 引言 "syntax parser" 是一个 JS 版语法解析器生成器，具有分词、语法树解析的能力。通过两个例子介绍它的功能。第一个例子是创建一个词法解析器：如上，通过正则分别匹配了 “空格”、“字母或数字”、“加号”，并将匹配到的空格忽略（不输出）。分词匹配是从左到右的，优先匹配数 ...

分类：其他好文时间：2019-03-04 10:00:11 阅读次数：201

Elasticsearch 自定义多个分析器

分析器(Analyzer) Elasticsearch 无论是内置分析器还是自定义分析器，都由三部分组成：字符过滤器(Character Filters)、分词器(Tokenizer)、词元过滤器(Token Filters)。分析器Analyzer工作流程： Input Text => Char... ...

分类：其他好文时间：2019-03-01 12:44:51 阅读次数：224

正排索引与倒排索引(转)

正排索引与倒排索引什么是正排索引（forward index）？由key查询实体的过程，是正排索引. 在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合（实际上在搜索引擎索引库中，关键词也已经转换为关键词ID。简单的，正排索引可以理解为(文件内容会对应一个分词后的集合li ...

分类：其他好文时间：2019-02-28 16:43:15 阅读次数：149

【ELK】【docker】6.Elasticsearch 集群启动多节点 + 解决ES节点集群状态为yellow

ELK系列的示例中，启动的是单个的ES节点。系列文章：【ELK】【docker】【elasticsearch】1. 使用Docker和Elasticsearch+ kibana 5.6.9 搭建全文本搜索引擎应用集群,安装ik分词器【ELK】【docker】【elasticsearch】2. ...

分类：其他好文时间：2019-02-28 11:54:47 阅读次数：1012

Win10系统下Anaconda下安装多种Python函数库

一、计算机视觉 1. OpenCV图像处理在https://www.lfd.uci.edu/~gohlke/pythonlibs/网站下载相应的.whl文件进入文件下载目录下 pip install xx.whl 安装 2. Pytorch深度学习框架 conda install pytorch ...

分类：编程语言时间：2019-02-26 13:32:52 阅读次数：300

解决在使用gensim.models.word2vec.LineSentence加载语料库时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte......的问题

在window下使用gemsim.models.word2vec.LineSentence加载中文维基百科语料库（已分词）时报如下错误：这种编码问题真的很让人头疼，这种问题都是出现在xxx.decode("utf-8")的时候，所以接下来我们来看看gensim中的源码：从源码中可以看到__ite ...

分类：其他好文时间：2019-02-21 12:52:53 阅读次数：727

共2158条上一页 1 ... 47 48 49 50 51 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)