搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2015-05-14 13:58:27
阅读次数:
129
在中文搜索中的标点、符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程序员来说是个噩梦。然而在中文分词工具mmseg中,它的中文分词是将标点与符号均去除的,它认为对于中文来讲标点符号无意义,这明显不能满足我们的需求。那么怎样改造它让它符合我们的要求...
分类:
其他好文 时间:
2015-05-14 00:53:54
阅读次数:
234
各种查询 方式一:使用QueryParser与查询语法。(会使用分词器) MultiFieldQueryParser 查询字符串 ------------------------> Query对象 例如: 上海 AND 天气 上海 OR 天气 上海新闻 AND site:news.163.com .....
分类:
Web程序 时间:
2015-05-13 20:06:27
阅读次数:
159
在进行中文分词的时候,我们如何利用多核提升分词速度呢? 计算机很早就进入多核心时代了,不充分利用多核CPU是对计算资源的一种极大的浪费。 在对一段文本进行分词的时候,word分词器的处理步骤如下: 1、把要分...
分类:
其他好文 时间:
2015-05-13 01:01:41
阅读次数:
177
cws_evaluation是一个Java开源项目,用于对中文分词器的分词效果进行评估对比,目前支持9大中文分词器。分别是:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smart...
分类:
其他好文 时间:
2015-05-12 11:48:11
阅读次数:
295
Google地图,可直接使用.http://blog.163.com/daizi_/ 学习地址由于工作关系,最近这两天研究了下Google地图API,要实现地图位置搜索功能,显示搜索结果并能在地图上标记下来,刚开始还考虑使用51ditu,出于搜索关键字分词等方面考虑,最后还是决定使用Google地图...
分类:
其他好文 时间:
2015-05-11 19:47:25
阅读次数:
554
Lucene分析器的基类为Analyzer,Analyzer包含两个核心组件:Tokenizer和 TokenFilter。自定义分析器必须实现Analyzer类的抽象方法createComponents(String)来定义TokenStreamComponents。在调用方法tokenStrea...
分类:
Web程序 时间:
2015-05-10 22:12:14
阅读次数:
475
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;官方网址:http://ictclas.nlpir.org(地址一直在变,要是不能用直接搜NLPIR).....
分类:
其他好文 时间:
2015-05-10 12:45:23
阅读次数:
254
本文的目标有两个: 1、学会使用9大Java开源中文分词器 2、对比分析9大Java开源中文分词器的分词效果 9大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: /**
?...
分类:
编程语言 时间:
2015-05-10 06:26:32
阅读次数:
227
在使用?基于词典?的分词方法的时候,如果我们解决了下面4个问题: 1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。 2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。 ...
分类:
编程语言 时间:
2015-05-09 20:39:14
阅读次数:
708