搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

【Open Search产品评测】－来往，7天轻松定制属于自己的搜索引擎

【Open Search产品评测】－－来往，7天轻松定制属于自己的搜索引擎[使用背景] 相信很多人都遇到过要给网站或者app做一个搜索功能的需求，很久之前自己折腾过lucene，搞了很久，要自己搞中文分词（比如用中科院的那个）重写tokenizer，自己建索引，做实时更新流程，数据量大了还要考虑怎...

分类：其他好文时间：2014-08-19 18:41:15 阅读次数：205

hadoop中文分词、词频统计及排序

有如图所示的输入文件。其中第一列代表ip地址，之后的偶数列代表搜索词，数字(奇数列)代表搜索次数，使用"\t"分隔。现在需要对搜索词进行分词并统计词频，此处不考虑搜索次数，可能是翻页，亦不考虑搜索链接的行为。...

分类：其他好文时间：2014-08-17 11:47:02 阅读次数：306

给定字典做分词

最近需要用到分词，无聊写个算法。。。算法：给定一个字典和一句话，做分词；Target：输入词典，输出所有可能的分词结果思路：dfs加速：首先判断是不是这句话里所有的词在字典中都有（validate）// // Wordsplit.cpp // // Target: Find all possible splitting of a sentence given a dictionary di...

分类：其他好文时间：2014-08-16 23:50:11 阅读次数：314

IK自定义分词字典无效

早上在家试了半个多小时，配置什么的都没错啊，可就是没有效果，好生郁闷，今天上午在公司看文档时看到，原来是1.自定义词典为什么没有生效？请确保你的扩展词典的文本格式为UTF8编码

分类：其他好文时间：2014-08-14 13:16:19 阅读次数：398

关于中文分词

眼下全量索引17G,不到1300万document花费大约25分钟的时间(Lucene 4.0)，吞吐量远远低于lucene nightly build宣称的170G/h的量。换用StandardAnalyzer,有34%的提高，比較下使用的KAnalyzer,mmseg4j1.9.2-snapsh...

分类：其他好文时间：2014-08-12 21:45:54 阅读次数：193

《Python学习手册》读书笔记【转载】

转载：http://www.cnblogs.com/wuyuegb2312/archive/2013/02/26/2910908.html　之前为了编写一个svm分词的程序而简单学了下Python，觉得Python很好用，想深入并系统学习一下，了解一些机制，因此开始阅读《Python学习手册(第三版...

分类：编程语言时间：2014-08-11 17:34:32 阅读次数：407

关于分词(词项,词典)

在前一篇中的倒排索引介绍中, 我们了解到要把一篇文档(或者在电商业务中一个商品相关信息)放入索引系统中, 要对该文档的关键词进行提取分析出来后建立相应的倒排列表. 现在问题来了, 我们怎么从一篇文档中抽出所有以前可能要索引的词. 比如一个显示器的标题是 "三星显示器S22D300NY 21.5寸 L...

分类：其他好文时间：2014-08-10 21:09:10 阅读次数：343

Lucene分词器之庖丁解牛

Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大..

分类：其他好文时间：2014-08-10 18:58:01 阅读次数：399

Lucene分词器之庖丁解牛

Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大多运用lu...

分类：其他好文时间：2014-08-10 12:35:10 阅读次数：210

python 分词计算文档TF-IDF值并排序

python 分词计算文档TF-IDF值并排序...

分类：编程语言时间：2014-08-09 11:38:07 阅读次数：617

共2158条上一页 1 ... 203 204 205 206 207 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)