# -*- coding=utf-8 -*-import sys, re, codecsimport cProfilefrom yaha import Cuttor, RegexCutting, SurnameCutting, SurnameCutting2, SuffixCuttingfrom y ...
分类:
其他好文 时间:
2016-03-26 10:52:09
阅读次数:
182
可定制的分词库——Yaha(哑哈)分词在线测试地址:http://yaha.v-find.com/ 部署于GAE yahademo.appspot.comYaha分词主要特点是把分词过程分成了4个阶段,每个阶段都可以让用户加入自己的一些定制,以面向不同的用户需求。 这是一个最简单真白的示例:# -* ...
分类:
其他好文 时间:
2016-03-26 10:51:20
阅读次数:
128
http://www.williamlong.info/archives/333.html
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。
搜索引擎技术的研究,...
分类:
其他好文 时间:
2016-03-26 07:12:01
阅读次数:
138
//这个是在原来的基础上改动以后得到的,将当中的分词的根据给换掉了,而且进行词频统计的时候会自己主动的忽略大写和小写 packageorg.apache.hadoop.mapred; importjava.io.IOException; importjava.util.ArrayList; impo ...
分类:
其他好文 时间:
2016-03-23 21:40:57
阅读次数:
261
刚刚接触R语言和文本分析,为了将二者结合,试着对《红楼梦》进行分析,首先对《红楼梦》进行分词处理,并统计词频,同时画出标签云。 其实文本分析还可以分析其它很多东西,我的下一步打算分析新浪微博。现在先写一个小的分析,作为学习用。 文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的
分类:
其他好文 时间:
2016-03-21 18:22:35
阅读次数:
1138
一、配置IKAnalyzer中文分词器Solr版本5.2.1IKAnalyzer2012_u6.jar报错,用IKAnalyzer2012_FF_hf1.jar替换可解决解决lucene4.0与IKAnalyzer的冲突。解决Exceptioninthread"main"java.lang.VerifyError:classorg.wltea.analyzer.lucene.IKAnalyzeroverridesfinalmethodtokenStrea..
分类:
其他好文 时间:
2016-03-20 18:09:01
阅读次数:
1197
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍ik的用法, 当我们创建一个index(库db_news)时,easticsearch默认提供的分
在使用IK之前同样也需要下载IK的jar包请点击下载,接下来我们对下载的文件进行配置 第一步:先将IKAnalyzer2012FF_u2.jar文件复制到tomcat目录webapps\solr5.5\WEB-INF\lib下 第二步:将IKAnalyzer.cfg.xml和stopword.dic
分类:
Web程序 时间:
2016-03-07 19:17:58
阅读次数:
177
本文来自这里在前面的概念介绍中我们已经知道了分析器的作用,就是把句子按照语义切分成一个个词语。英文切分已经有了很成熟的分析器: StandardAnalyzer,很多情况下StandardAnalyzer是个不错的选择。甚至你会发现StandardAnalyzer也能对中文进行分词。但是我们的焦点是
分类:
Web程序 时间:
2016-03-01 22:15:22
阅读次数:
165
一、NLPIR是什么? NLPIR(汉语分词系统)由中科大张华平博士团队开发,主要功能包括:中文分词,词性标注,命名实体识别,用户词典功能,详情见官网:http://ictclas.nlpir.org/。 二、java环境下的使用: 主要参考了如下资料:http://www.360doc.com/c
分类:
编程语言 时间:
2016-02-28 09:48:22
阅读次数:
305