主要知识点: 直接对分词的term进行聚合后果 设置fielddata=true 直接用.keyword进行聚合 doc value 的性能问题 一、直接对分词的term进行聚合后果 对于分词的field执行aggregation,发现报错。。。 1、新建一条数据(隐式创建一个索引和type) PO... ...
分类:
其他好文 时间:
2018-03-11 00:26:50
阅读次数:
252
主要知识点: 对类似文件系统这种的有多层级关系的数据进行建模 对上述模型数据进行搜索 一、文件系统数据构造 1、新建index,并自定义analyzer 新建一个index,自定义一个名为paths的analyzer,这个analyzer所用的分词器是path_hierarchy。语法: PUT /... ...
分类:
其他好文 时间:
2018-03-11 00:22:11
阅读次数:
175
第一部分: 作用域和闭包 一、作用域 1. 作用域:存储并查找变量的规则 2. 源代码在执行之前(编译)会经历三个步骤: 分词/此法分析:将代码字符串分解成有意义的代码块(词法单元) 解析/语法分析:将词法单元流转换成抽象语法树(AST) 代码生成:将抽象语法树转换成可执行代码 3. LHS查询: ...
分类:
编程语言 时间:
2018-03-09 20:23:00
阅读次数:
192
1. 数据采集:Python爬取淘宝网商品数据 2. 对数据进行清洗和处理 3. 文本分析:jieba分词、wordcloud可视化 4. 数据柱形图可视化 barh 5. 数据直方图可视化 hist 6. 数据散点图可视化 scatter 7. 数据回归分析可视化 regplot ...
分类:
编程语言 时间:
2018-03-09 13:18:55
阅读次数:
290
在之前我们学的都是英文,用的也是英文的standard分词器。从这一节开始,学习中文分词器。中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割开来,比如说中国人 --> 中 国 人 在中方搜索引擎领域,比较成熟和流行的,就... ...
分类:
其他好文 时间:
2018-03-08 23:03:39
阅读次数:
407
主要知识点: 知道IK默认的配置文件信息 自定义词库 一、ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起 quantif... ...
分类:
其他好文 时间:
2018-03-08 22:56:58
阅读次数:
198
一、ngram和index-time搜索推荐原理 1、什么是ngram 假设有一个单词:quick,在5种长度下的ngram情况如下: ngram length=1,q u i c k ngram length=2,qu ui ic ck ngram length=3,qui uic ick ngr... ...
分类:
其他好文 时间:
2018-03-08 14:13:16
阅读次数:
148
ES在更改分词器或更改已有mapping结构后需要重新重新索引,当然复制也是一样的,相当于重新生成索引信息 //es的head插件地址:http://localhost:9200/_plugin/head/ //新建索引PUT /my_index_new{//此处mapping复制的时候可以复制已有 ...
分类:
其他好文 时间:
2018-03-06 10:16:12
阅读次数:
602
对于搜索引擎的搜索准确度影响很大 1.基于字符串匹配(机械分词) 一般作为一个初分手段 (1)正向最大匹配法(需要充分大的词典) 例子: 将句子 ’ 今天来了许多新同事 ’ 分词。 设最大词长为5 例子: 将句子 ’ 今天来了许多新同事 ’ 分词。 设最大词长为5 今天来了许 今天来了 今天来 今天 ...
分类:
编程语言 时间:
2018-03-01 13:20:26
阅读次数:
167
最近用到分词考虑很久,选用了结巴分词,原因见博客 "Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合,以及对分词器的思考" 既然选好了,难就开始行动吧 。 查了.net core版的JIEba分词目前已经有人迁移了 1. "https://github.com ...
分类:
Web程序 时间:
2018-02-28 22:59:11
阅读次数:
969