1.调用庖丁分词器,分词grid@server01:~/data$hadoopjarmrtokenize.jartokenize.TokenizeDriver/home/grid/data/lesson8/home/grid/output/sportwords14/08/3121:59:33INFOinput.FileInputFormat:Totalinputpathstoprocess:10205.....14/08/3122:05:25INFOmapred.JobClient:Map..
分类:
其他好文 时间:
2014-09-01 15:48:44
阅读次数:
296
//这个是在原来的基础上修改以后得到的,将其中的分词的依据给换掉了,并且进行词频统计的时候会自动的忽略大小写
packageorg.apache.hadoop.mapred;
importjava.io.IOException;
importjava.util.ArrayList;
importjava.util.Iterator;
importjava.util.List;...
分类:
其他好文 时间:
2014-09-01 10:47:23
阅读次数:
334
介绍solr3.6.2和solr4.9.0在tomcat7.0.55下的基本配置。包括IK分词器、主从配置。可以满足工作中的最基本需求。...
分类:
其他好文 时间:
2014-08-28 18:11:25
阅读次数:
295
在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。 运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides fi...
分类:
其他好文 时间:
2014-08-26 11:58:26
阅读次数:
216
使用Google地图API搜索功能 由于工作关系,最近这两天研究了下Google地图API,要实现地图位置搜索功能,显示搜索结果并能在地图上标记下来,刚开始还考虑使用51ditu,出于搜索关键字分词等方面考虑,最后还是决定使用Google地图,一直也都是那么的崇拜谷歌的大神,这次就来体验一翻~在Go...
1、开篇语2、概述3、渊源4、初识Solr5、Solr的安装6、Solr分词顺序7、Solr中文应用的一个实例8、Solr的检索运算符[开篇语]按照惯例应该写一篇技术文章了,这次结合Lucene/Solr来分享一下开发经验。Lucene是一个使用Java语言写的全文检索开发包(API),利用它可以实...
分类:
其他好文 时间:
2014-08-25 14:47:44
阅读次数:
223
Lucene是一个基于Java的全文索引工具包。 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切分词算法的比较 具...
分类:
编程语言 时间:
2014-08-21 19:46:35
阅读次数:
445
做检索怎么都绕不过中文分词去,学习一下用IKAnalyzer分词器做中文分词。Game Starts参考文档 1) 中文分词之Java实现使用IK Analyzer实现 2) IKAnalyzer 独立使用 配置扩展词典 依赖jar包 1) IKAnalyzer2012FF_u1.jar 最...
分类:
其他好文 时间:
2014-08-21 00:03:03
阅读次数:
240
Luke是一个用于Lucene搜索引擎的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改。可以看每篇文档建立了哪些索引,验证有没有成功建立了索引。不然建立了,不能确定有没有成功。可以用luke看文章怎么分的词。当搜索query过来以后,query也会被分词,拿这个分好的词去索引中查询...
分类:
其他好文 时间:
2014-08-20 23:56:23
阅读次数:
296
发现了一个很好的分词类库phpanalysis2.0。 原文连接地址:http://www.phpbone.com/phpanalysis/ 分 词系统简介:PHPAnalysis分词程序使用居于unicode的词库,使用反向匹配模式分词,理论上兼容编码更广泛,并且对utf-8编码尤为方 ...
分类:
Web程序 时间:
2014-08-19 18:49:15
阅读次数:
494