【Open Search产品评测】-- 来往,7天轻松定制属于自己的搜索引擎[使用背景] 相信很多人都遇到过要给网站或者app做一个搜索功能的需求,很久之前自己折腾过lucene,搞了很久,要自己搞中文分词(比如用中科院的那个)重写tokenizer,自己建索引,做实时更新流程,数据量大了还要考虑怎...
分类:
其他好文 时间:
2014-08-19 18:41:15
阅读次数:
205
有如图所示的输入文件。其中第一列代表ip地址,之后的偶数列代表搜索词,数字(奇数列)代表搜索次数,使用"\t"分隔。现在需要对搜索词进行分词并统计词频,此处不考虑搜索次数,可能是翻页,亦不考虑搜索链接的行为。...
分类:
其他好文 时间:
2014-08-17 11:47:02
阅读次数:
306
最近需要用到分词,无聊写个算法。。。算法:给定一个字典和一句话,做分词;Target:输入词典,输出所有可能的分词结果思路:dfs加速:首先判断是不是这句话里所有的词在字典中都有(validate)//
// Wordsplit.cpp
//
// Target: Find all possible splitting of a sentence given a dictionary di...
分类:
其他好文 时间:
2014-08-16 23:50:11
阅读次数:
314
早上在家试了半个多小时,配置什么的都没错啊,可就是没有效果,好生郁闷,今天上午在公司看文档时看到,原来是1.自定义词典为什么没有生效?请确保你的扩展词典的文本格式为UTF8编码
分类:
其他好文 时间:
2014-08-14 13:16:19
阅读次数:
398
眼下全量索引17G,不到1300万document花费大约25分钟的时间(Lucene 4.0),吞吐量远远低于lucene nightly build宣称的170G/h的量。换用StandardAnalyzer,有34%的提高,比較下使用的KAnalyzer,mmseg4j1.9.2-snapsh...
分类:
其他好文 时间:
2014-08-12 21:45:54
阅读次数:
193
转载:http://www.cnblogs.com/wuyuegb2312/archive/2013/02/26/2910908.html 之前为了编写一个svm分词的程序而简单学了下Python,觉得Python很好用,想深入并系统学习一下,了解一些机制,因此开始阅读《Python学习手册(第三版...
分类:
编程语言 时间:
2014-08-11 17:34:32
阅读次数:
407
在前一篇中的倒排索引介绍中, 我们了解到要把一篇文档(或者在电商业务中一个商品相关信息)放入索引系统中, 要对该文档的关键词进行提取分析出来后建立相应的倒排列表. 现在问题来了, 我们怎么从一篇文档中抽出所有以前可能要索引的词. 比如一个显示器的标题是 "三星显示器S22D300NY 21.5寸 L...
分类:
其他好文 时间:
2014-08-10 21:09:10
阅读次数:
343
Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大..
分类:
其他好文 时间:
2014-08-10 18:58:01
阅读次数:
399
Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大多运用lu...
分类:
其他好文 时间:
2014-08-10 12:35:10
阅读次数:
210
python 分词计算文档TF-IDF值并排序...
分类:
编程语言 时间:
2014-08-09 11:38:07
阅读次数:
617