1 全文检索工具,方便实现全文检索功能。 2 全文检索, 先对要搜索的文档进行分词,形成索引,根据索引经行检索。 3 全文检索流程 索引流程:采集数据, 处理数据,创建索引 搜索流程:输入查询条件,Lucene查询器查询索引, 索引库取出结果 4 IndexWriter是索引过程的核心组件,通过In ...
分类:
Web程序 时间:
2017-10-04 01:01:44
阅读次数:
332
>>> from nltk.tokenize.stanford_segmenter import StanfordSegmenter >>> segmenter = StanfordSegmenter(path_to_jar='stanford-segmenter-3.8.0.jar', path_... ...
分类:
其他好文 时间:
2017-07-30 13:58:09
阅读次数:
315
还没有处理lambda、上下文等。有待完好。 main { for putsl(eval(getsl)) } rstr eval(rstr s) { return eval(tokenize(s).split(' ')) } rstr eval(rbuf<rstr>& v) { if v.get(0 ...
分类:
其他好文 时间:
2017-06-18 21:51:31
阅读次数:
160
[TOC] 词性标注器 之后的很多工作都需要标注完的词汇。nltk自带英文标注器pos_tag import nltk text = nltk.word_tokenize("And now for something compleyely difference") print(text) print ...
分类:
其他好文 时间:
2017-06-13 21:44:15
阅读次数:
319
mapreduce分为map和reduce两个工作,map负责处理初始数据,处理后产生的新数据再汇聚给reduce处理。 map和reduce类的重写都是一个规则。都是类名<*,*,*,*>(尖括号里面,Java叫做泛型)四个参数,map的前两个参数是从文件处传输过来待处理的key和value值,然 ...
分类:
其他好文 时间:
2017-06-13 00:05:19
阅读次数:
320
全局变量 写MapReduce程序时候,有时候须要用到全局变量,经常使用的全局变量实现由三种方式: 通过作业的Configuration传递全局变量,作业初始化的时候,conf.set()。须要的时候,再用conf.get()读出来。缺点:不能共享较大的数据。通过distributedcache通过 ...
分类:
其他好文 时间:
2017-05-06 15:03:43
阅读次数:
285
怎么理解token,tokenize,tokenizer?(https://zhidao.baidu.com/question/265411985659520925.html) 这只是当个人笔记使用 ...
分类:
其他好文 时间:
2017-04-28 10:25:34
阅读次数:
171
打开 ~/es_root/config/elasticsearch.yml 文件,加入以下配置: 以上配置定义了 ik_syno 和 ik_syno_smart 这两个新的 analyzer,分别对应 IK 的 ik_max_word 和 ik_smart 两种分词策略。根据 IK 的文档,二者区别 ...
分类:
其他好文 时间:
2016-11-19 20:54:53
阅读次数:
289
实验要求题目要求
1、用MapReduce算法实现贝叶斯分类器的训练过程,并输出训练模型;
2、用输出的模型对测试集文档进行分类测试。测试过程可基于单机Java程序,也可以是MapReduce程序...
分类:
其他好文 时间:
2016-11-18 18:55:08
阅读次数:
274