码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
【Open Search产品评测】- 来往,7天轻松定制属于自己的搜索引擎
【Open Search产品评测】-- 来往,7天轻松定制属于自己的搜索引擎[使用背景] 相信很多人都遇到过要给网站或者app做一个搜索功能的需求,很久之前自己折腾过lucene,搞了很久,要自己搞中文分词(比如用中科院的那个)重写tokenizer,自己建索引,做实时更新流程,数据量大了还要考虑怎...
分类:其他好文   时间:2014-08-19 18:41:15    阅读次数:205
hadoop中文分词、词频统计及排序
有如图所示的输入文件。其中第一列代表ip地址,之后的偶数列代表搜索词,数字(奇数列)代表搜索次数,使用"\t"分隔。现在需要对搜索词进行分词并统计词频,此处不考虑搜索次数,可能是翻页,亦不考虑搜索链接的行为。...
分类:其他好文   时间:2014-08-17 11:47:02    阅读次数:306
给定字典做分词
最近需要用到分词,无聊写个算法。。。算法:给定一个字典和一句话,做分词;Target:输入词典,输出所有可能的分词结果思路:dfs加速:首先判断是不是这句话里所有的词在字典中都有(validate)// // Wordsplit.cpp // // Target: Find all possible splitting of a sentence given a dictionary di...
分类:其他好文   时间:2014-08-16 23:50:11    阅读次数:314
IK自定义分词字典无效
早上在家试了半个多小时,配置什么的都没错啊,可就是没有效果,好生郁闷,今天上午在公司看文档时看到,原来是1.自定义词典为什么没有生效?请确保你的扩展词典的文本格式为UTF8编码
分类:其他好文   时间:2014-08-14 13:16:19    阅读次数:398
关于中文分词
眼下全量索引17G,不到1300万document花费大约25分钟的时间(Lucene 4.0),吞吐量远远低于lucene nightly build宣称的170G/h的量。换用StandardAnalyzer,有34%的提高,比較下使用的KAnalyzer,mmseg4j1.9.2-snapsh...
分类:其他好文   时间:2014-08-12 21:45:54    阅读次数:193
《Python学习手册》读书笔记【转载】
转载:http://www.cnblogs.com/wuyuegb2312/archive/2013/02/26/2910908.html 之前为了编写一个svm分词的程序而简单学了下Python,觉得Python很好用,想深入并系统学习一下,了解一些机制,因此开始阅读《Python学习手册(第三版...
分类:编程语言   时间:2014-08-11 17:34:32    阅读次数:407
关于分词(词项,词典)
在前一篇中的倒排索引介绍中, 我们了解到要把一篇文档(或者在电商业务中一个商品相关信息)放入索引系统中, 要对该文档的关键词进行提取分析出来后建立相应的倒排列表. 现在问题来了, 我们怎么从一篇文档中抽出所有以前可能要索引的词. 比如一个显示器的标题是 "三星显示器S22D300NY 21.5寸 L...
分类:其他好文   时间:2014-08-10 21:09:10    阅读次数:343
Lucene分词器之庖丁解牛
Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大..
分类:其他好文   时间:2014-08-10 18:58:01    阅读次数:399
Lucene分词器之庖丁解牛
Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大多运用lu...
分类:其他好文   时间:2014-08-10 12:35:10    阅读次数:210
python 分词计算文档TF-IDF值并排序
python 分词计算文档TF-IDF值并排序...
分类:编程语言   时间:2014-08-09 11:38:07    阅读次数:617
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!