搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

elasticsearch 查询优化

首先对不必要的字段不做分词也就是不做索引，禁止内存交换 1.shard 一个Shard就是一个Lucene实例，是一个完整的搜索引擎。分片数过多会导致检索时打开比较多的文件，多台服务器之间通讯成本加大。而分片数过少会导至单个分片索引过大，所以检索速度也会慢。建议单个分片最多存储10G-20G左 ...

分类：其他好文时间：2018-10-26 10:42:27 阅读次数：215

ELK系列三：Elasticsearch的简单使用和配置文件简介

1、定义模板创建索引：首先定义好一个模板的例子然后使用PUT方法，发送给Elasticsearch。可以使用下图插件：然后查看一下，模板是否上传成功：我博客前面的Elasticsearch中曾经有关于模板的介绍，这里因为Elasticsearch的升级改版，要对模板知识做一些修改 2、创建索 ...

分类：其他好文时间：2018-10-24 15:21:47 阅读次数：203

Elasticsearch 索引管理和内核探秘

1. 创建索引，修改索引，删除索引 2. 默认分词器standard standard tokenizer：以单词边界进行切分standard token filter：什么都不做lowercase token filter：将所有字母转换为小写stop token filer（默认被禁用）：移除停 ...

分类：其他好文时间：2018-10-23 16:26:30 阅读次数：190

NLP汉语自然语言处理入门基础知识介绍

NLP汉语自然语言处理入门基础知识介绍自然语言处理定义：自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分（人工智能还包括计算机视觉等），但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统，但只有人类才拥有这么高级的语言。自然语言处理的目标 ...

分类：编程语言时间：2018-10-23 12:08:08 阅读次数：177

Ik分词器没有使用---------elasticsearch-analysis-ik 5.6.3分词问题

1.问题现在项目中用的是ES5.6.3的版本，在解决Field注解没有加载mapping的问题后又发现IK分词好像不理想。后来查看5.5.0 IKAnalyzer.cfg.xml的配置发现这里Ik是默认帮我们配置了分词的文件，这些文件是IK已经分过的词。然后再查看5.6.3IK的配置文件 5 ...

分类：其他好文时间：2018-10-22 20:28:34 阅读次数：239

BTM学习小记

BTM的原理跟LDA很像，下面是该模型的概率图：由该图可以看出来，与LDA的区别在于确定主题分布和词分布后相应地取两个词（而LDA只取一个，即类比常见的骰子说法：先投掷K面的骰子得到主题z，再根据相应的V面骰子，连续投掷两次，得到一对词汇），这俩词叫做biterm（就是在把一个文档分词之后，对这些 ...

分类：其他好文时间：2018-10-20 22:05:51 阅读次数：201

Attention is all you need及其在TTS中的应用Close to Human Quality TTS with Transformer和BERT

论文地址： "Attention is you need" 序列编码深度学习做NLP的方法，基本都是先将句子分词，然后每个词转化为对应的的词向量序列，每个句子都对应的是一个矩阵$X=(x_1,x_2,...,x_t)$，其中$x_i$都代表着第$i$个词向量，维度为d维，故$x\in R^{n×d ...

分类：其他好文时间：2018-10-14 23:11:43 阅读次数：474

哈工大分词器在 mac os 10.13上的源码安装

之前安装了几次没有成功， PengYi <notifications@github.com>，这哥们发email说：看源代码里面，ltp是一个link。所以，git clone下来，这个目录下面是空的。需要进入源代码目录。把ltp删掉，然后在执行 git clone git@github.com: ...

分类：系统相关时间：2018-10-14 19:15:26 阅读次数：316

关于注意力机制（《Attention is all you need》）

深度学习做NLP的方法，基本上都是先将句子分词，然后每个词转化为对应的词向量序列。(https://kexue.fm/archives/4765) 第一个思路是RNN层，递归进行，但是RNN无法很好地学习到全局的结构信息，因为它本质是一个马尔科夫决策过程。第二个思路是CNN层，其实CNN的方案也是 ...

分类：其他好文时间：2018-10-14 00:34:17 阅读次数：694

Python的jieba模块简介

现如今，词云技术遍地都是，分词模块除了jieba也有很多，主要介绍一下jieba的基本使用运行结果其中精确模式比较好用，全模式就是尽量将所有的词拿出来 ...

分类：编程语言时间：2018-10-13 10:24:40 阅读次数：376

共2158条上一页 1 ... 58 59 60 61 62 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)