首先对不必要的字段不做分词也就是不做索引,禁止内存交换 1.shard 一个Shard就是一个Lucene实例,是一个完整的搜索引擎。 分片数过多会导致检索时打开比较多的文件,多台服务器之间通讯成本加大。 而分片数过少会导至单个分片索引过大,所以检索速度也会慢。 建议单个分片最多存储10G-20G左 ...
分类:
其他好文 时间:
2018-10-26 10:42:27
阅读次数:
215
1、定义模板创建索引: 首先定义好一个模板的例子 然后使用PUT方法,发送给Elasticsearch。可以使用下图插件: 然后查看一下,模板是否上传成功: 我博客前面的Elasticsearch中曾经有关于模板的介绍,这里因为Elasticsearch的升级改版,要对模板知识做一些修改 2、创建索 ...
分类:
其他好文 时间:
2018-10-24 15:21:47
阅读次数:
203
1. 创建索引,修改索引,删除索引 2. 默认分词器standard standard tokenizer:以单词边界进行切分standard token filter:什么都不做lowercase token filter:将所有字母转换为小写stop token filer(默认被禁用):移除停 ...
分类:
其他好文 时间:
2018-10-23 16:26:30
阅读次数:
190
NLP汉语自然语言处理入门基础知识介绍 自然语言处理定义: 自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。 自然语言处理的目标 ...
分类:
编程语言 时间:
2018-10-23 12:08:08
阅读次数:
177
1.问题 现在项目中用的是ES5.6.3的版本,在解决Field注解没有加载mapping的问题后又发现IK分词好像不理想。 后来查看5.5.0 IKAnalyzer.cfg.xml的配置发现 这里Ik是默认帮我们配置了分词的文件,这些文件是IK已经分过的词。 然后再查看5.6.3IK的配置文件 5 ...
分类:
其他好文 时间:
2018-10-22 20:28:34
阅读次数:
239
BTM的原理跟LDA很像,下面是该模型的概率图: 由该图可以看出来,与LDA的区别在于确定主题分布和词分布后相应地取两个词(而LDA只取一个,即类比常见的骰子说法:先投掷K面的骰子得到主题z,再根据相应的V面骰子,连续投掷两次,得到一对词汇),这俩词叫做biterm(就是在把一个文档分词之后,对这些 ...
分类:
其他好文 时间:
2018-10-20 22:05:51
阅读次数:
201
论文地址: "Attention is you need" 序列编码 深度学习做NLP的方法,基本都是先将句子分词,然后每个词转化为对应的的词向量序列,每个句子都对应的是一个矩阵$X=(x_1,x_2,...,x_t)$,其中$x_i$都代表着第$i$个词向量,维度为d维,故$x\in R^{n×d ...
分类:
其他好文 时间:
2018-10-14 23:11:43
阅读次数:
474
之前安装了几次没有成功, PengYi <notifications@github.com>,这哥们发email说: 看源代码里面,ltp是一个link。所以,git clone下来,这个目录下面是空的。需要进入源代码目录。把ltp删掉,然后在执行 git clone git@github.com: ...
分类:
系统相关 时间:
2018-10-14 19:15:26
阅读次数:
316
深度学习做NLP的方法,基本上都是先将句子分词,然后每个词转化为对应的词向量序列。(https://kexue.fm/archives/4765) 第一个思路是RNN层,递归进行,但是RNN无法很好地学习到全局的结构信息,因为它本质是一个马尔科夫决策过程。 第二个思路是CNN层,其实CNN的方案也是 ...
分类:
其他好文 时间:
2018-10-14 00:34:17
阅读次数:
694
现如今,词云技术遍地都是,分词模块除了jieba也有很多,主要介绍一下jieba的基本使用 运行结果 其中精确模式比较好用,全模式就是尽量将所有的词拿出来 ...
分类:
编程语言 时间:
2018-10-13 10:24:40
阅读次数:
376