无论是内置的分析器(analyzer),还是自定义的分析器(analyzer),都由三种构件块组成的:character filters , tokenizers , token filters。 内置的analyzer将这些构建块预先打包到适合不同语言和文本类型的analyzer中。 Charac ...
分类:
其他好文 时间:
2019-01-01 22:41:30
阅读次数:
240
汉语分词中的基本问题:分词规范,歧义的切分和未登录词的识别 分词规范:(一般也就是指“词”的概念的纠缠不清的问题,),一方面来源于 单字词和词素之间的划界,另一方面就是词和短语(词组)的划界问题 歧义切分问题: 交集型切分歧义:汉字串AJB 其中 AJ,JB同时为词,此时的J 称作交集串 例如:结合 ...
分类:
其他好文 时间:
2019-01-01 15:26:12
阅读次数:
236
正向索引 正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。 这种组织方法在建立索引的时候结构比较简单,建立比较方便且易于维护;因为索引是基于文档建立的,若是有新的文档加入,直接为该文档建立一个新的索引块,挂接在原来索引文 ...
分类:
其他好文 时间:
2018-12-31 22:00:23
阅读次数:
273
在es中,text类型的字段使用一种叫做fielddata的查询时内存数据结构。当字段被排序,聚合或者通过脚本访问时这种数据结构会被创建。它是通过从磁盘读取每个段的整个反向索引来构建的,然后存存储在java的堆内存中。 fileddata默认是不开启的。Fielddata可能会消耗大量的堆空间,尤其 ...
分类:
其他好文 时间:
2018-12-30 13:57:07
阅读次数:
747
[TOC] 前言 通过前面几篇系列文章,我们从分词中最基本的问题开始,并分别利用了1 gram和HMM的方法实现了分词demo。本篇博文在此基础上,重点介绍利用CRF来实现分词的方法,这也是一种基于字的分词方法,在将句子转换为序列标注问题之后,不使用HMM的生成模型方式,而是使用条件概率模型进行建模 ...
分类:
编程语言 时间:
2018-12-28 13:26:13
阅读次数:
248
测试环境:debian 9官网提供了 deb,rpm,源码下载 官方下载地址:https://www.elastic.co/downloads/elasticsearch 通过源码安装会遇到一些小问题,为了方便,我直接下载deb安装(我不确定通过deb安装是否需要java环境,因为我提前安装了ope ...
分类:
其他好文 时间:
2018-12-27 18:34:07
阅读次数:
170
docker-compose.yml 进入容器添加core solr@eaed99eb2ede:/opt/solr/server/solr/ik_core$ ls conf core.properties data 访问solr admin 分词 Solr 对英文提供分词支持 可以看到对于中文就只能 ...
分类:
其他好文 时间:
2018-12-26 20:15:13
阅读次数:
391
文章来源:企鹅号 - 一鱼数据 文|一鱼数据 上节课,我们学习了自然语言处理课程(一):自然语言处理在网文改编市场的应用,了解了相关的基础理论。接下来,我们将要了解一些具体的、可操作的技术方法。 作为小说爱好者的你,是否有设想过通过一些计算机工具对小说做一些有趣的事情呢?阅读本文,你可以了解到如何运 ...
分类:
编程语言 时间:
2018-12-26 19:53:48
阅读次数:
196
英语的被动语态由“be+过去分词”构成,而被动语态的时态则通过动词be来体现,如一般现在时的被动语态为“am [is, are]+过去分词”构成,一般将来时的被动语态为“will be+过去分词”构成,现在完成时的被动语态为“have [has] been+过去分词”构成,等等。由此可知,学好不同时 ...
分类:
其他好文 时间:
2018-12-26 10:32:17
阅读次数:
807
中文分词的优秀库。 安装:pip install jieba 主要有三种模式,但是最主要有一个函数 模式:精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式上,对长词再次切分 函数:jieba.lcut(str):精确模式,返回一 ...
分类:
其他好文 时间:
2018-12-25 23:42:29
阅读次数:
260