码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
elasticsearch 安装hanlp插件
1.HanLP分词器插件下载地址https://github.com/pengcong90/elasticsearch-analysis-hanlp/releases下载analysis-hanlp.zip 2.解压到ElasticSearch下plugins目录下 3.配置修改analysis-h ...
分类:其他好文   时间:2019-03-12 09:25:49    阅读次数:542
Elasticsearch 重要概念小计
核心数据类型text&keywordText:1:支持分词,全文检索,支持模糊、精确查询,不支持聚合,排序操作;2:test类型的最大支持的字符长度无限制,适合大字段存储;使用场景:存储全文搜索数据,例如:邮箱内容、地址、代码块、博客文章内容等。默认结合standardanalyzer(标准解析器)对文本进行分词、倒排索引。默认结合标准分析器进行词命中、词频相关度打分。keyword:1:
分类:其他好文   时间:2019-03-11 16:19:37    阅读次数:235
2018-10-30 浏览器插件-离线英汉词典 0.0.7
新添功能: 添加词形变化信息, 如查询"get"显示: 过去分词: got; 过去式: got; 现在分词: getting; 第三人称单数: gets; 弹窗中显示处理后的英文, 比如, 查询"Task", 弹窗中会显示"task". 提供输入框, 可供当无法选中页面中的文本或者手动输入后按回车键 ...
分类:其他好文   时间:2019-03-10 09:36:38    阅读次数:179
java使用Ansj实现字符串分词
需要两个jar包 ansj_seg.jar nlp-lang ...
分类:编程语言   时间:2019-03-07 14:15:52    阅读次数:279
精读《syntax-parser 源码》
1. 引言 "syntax parser" 是一个 JS 版语法解析器生成器,具有分词、语法树解析的能力。 通过两个例子介绍它的功能。 第一个例子是创建一个词法解析器 : 如上,通过正则分别匹配了 “空格”、“字母或数字”、“加号”,并将匹配到的空格忽略(不输出)。 分词匹配是从左到右的,优先匹配数 ...
分类:其他好文   时间:2019-03-04 10:00:11    阅读次数:201
Elasticsearch 自定义多个分析器
分析器(Analyzer) Elasticsearch 无论是内置分析器还是自定义分析器,都由三部分组成:字符过滤器(Character Filters)、分词器(Tokenizer)、词元过滤器(Token Filters)。 分析器Analyzer工作流程: Input Text => Char... ...
分类:其他好文   时间:2019-03-01 12:44:51    阅读次数:224
正排索引与倒排索引(转)
正排索引与倒排索引 什么是正排索引(forward index)? 由key查询实体的过程,是正排索引. 在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。简单的,正排索引可以理解为(文件内容会对应一个分词后的集合li ...
分类:其他好文   时间:2019-02-28 16:43:15    阅读次数:149
【ELK】【docker】6.Elasticsearch 集群启动多节点 + 解决ES节点集群状态为yellow
ELK系列的示例中,启动的是单个的ES节点。 系列文章: 【ELK】【docker】【elasticsearch】1. 使用Docker和Elasticsearch+ kibana 5.6.9 搭建全文本搜索引擎应用 集群,安装ik分词器 【ELK】【docker】【elasticsearch】2. ...
分类:其他好文   时间:2019-02-28 11:54:47    阅读次数:1012
Win10系统下Anaconda下安装多种Python函数库
一、计算机视觉 1. OpenCV图像处理 在https://www.lfd.uci.edu/~gohlke/pythonlibs/网站下载相应的.whl文件 进入文件下载目录下 pip install xx.whl 安装 2. Pytorch深度学习框架 conda install pytorch ...
分类:编程语言   时间:2019-02-26 13:32:52    阅读次数:300
解决在使用gensim.models.word2vec.LineSentence加载语料库时报错 UnicodeDecodeError: 'utf-8' codec can't decode byte......的问题
在window下使用gemsim.models.word2vec.LineSentence加载中文维基百科语料库(已分词)时报如下错误: 这种编码问题真的很让人头疼,这种问题都是出现在xxx.decode("utf-8")的时候,所以接下来我们来看看gensim中的源码: 从源码中可以看到__ite ...
分类:其他好文   时间:2019-02-21 12:52:53    阅读次数:727
2158条   上一页 1 ... 47 48 49 50 51 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!