1. Schema.xml 在schema.xml文件中,主要配置了solrcore的一些数据信息,包括Field和FieldType的定义等信息,在solr中,Field和FieldType都需要先定义后使用。 1.1 Filed(定义Field域) Name:指定域的名称 Type:指定域的类型 ...
分类:
其他好文 时间:
2017-10-15 19:44:24
阅读次数:
148
一、安装。 去github下下载对应的ik版本: https://github.com/medcl/elasticsearch-analysis-ik/releases,并解压到对应的安装路径:../elasticsearch-5.5.3/plugin/ 使用elasticsearch-plugin ...
分类:
其他好文 时间:
2017-09-28 20:44:09
阅读次数:
1256
上次爬取的爸爸、妈妈、老师和自己的作文,利用sklearn.neighbors.KNeighborsClassifier进行分类。 数据散点图如下所示: ??? knn分类结果的混淆矩阵图如下所示: ...
分类:
编程语言 时间:
2017-09-01 09:52:15
阅读次数:
322
参考文献: http://www.cnblogs.com/yjf512/p/4789239.html ...
分类:
其他好文 时间:
2017-08-30 15:48:54
阅读次数:
294
自定义fieldType时,通常还会用到filter。filter必须跟在tokenizer或其它filter之后。如: Solr 提供了很多的filter,具体如下: 1. ASCII Folding Filter 2. Beider-Morse Filter 3. Classic Filter ...
分类:
其他好文 时间:
2017-08-29 16:26:12
阅读次数:
163
在工作中,经常需要解析不同类型的文件,常用的可能就是正则表达式了,简单点的,可能会使用awk。这里要推荐一种比较小众的方式,使用pyparsing来解析文件。 pyparsing可以做些什么呢?主要可以相当方便地定制自己的tokenizer,因此可以很容易拓展,实现自己的parser 下面看一个tr ...
分类:
其他好文 时间:
2017-07-07 00:48:40
阅读次数:
236
laravel一.简介二.运行环境要求 1.php 版本>=5.5.9 2.Mcrypt PHP扩展 php的加密扩展,提供多种加密算法 3.openssl扩展 对传输的数据进行加密 4.mbstring扩展 提供了针对多字节字符串的函数,能够帮助处理php多字节编码 5.Tokenizer PHP ...
分类:
其他好文 时间:
2017-05-15 22:29:36
阅读次数:
264
分词器的核心类: Analyzer:分词器 TokenStream: 分词器做优点理之后得到的一个流。这个流中存储了分词的各种信息,能够通过TokenStream有效的获取到分词单元。 下面是把文件流转换成分词流(TokenStream)的过程 首先,通过Tokenizer来进行分词,不同分词器有着 ...
分类:
Web程序 时间:
2017-04-30 17:17:16
阅读次数:
190
lucene4.0版本号以后 已经用TokenStreamComponents 代替了TokenStream流。里面包含了filter和tokenizer 在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲。有两个点。词库 ...
分类:
Web程序 时间:
2017-04-30 12:35:14
阅读次数:
152
怎么理解token,tokenize,tokenizer?(https://zhidao.baidu.com/question/265411985659520925.html) 这只是当个人笔记使用 ...
分类:
其他好文 时间:
2017-04-28 10:25:34
阅读次数:
171