码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
yaha分词
# -*- coding=utf-8 -*-import sys, re, codecsimport cProfilefrom yaha import Cuttor, RegexCutting, SurnameCutting, SurnameCutting2, SuffixCuttingfrom y ...
分类:其他好文   时间:2016-03-26 10:52:09    阅读次数:182
可定制的分词库——Yaha(哑哈)分词
可定制的分词库——Yaha(哑哈)分词在线测试地址:http://yaha.v-find.com/ 部署于GAE yahademo.appspot.comYaha分词主要特点是把分词过程分成了4个阶段,每个阶段都可以让用户加入自己的一些定制,以面向不同的用户需求。 这是一个最简单真白的示例:# -* ...
分类:其他好文   时间:2016-03-26 10:51:20    阅读次数:128
搜索引擎技术揭密:中文分词技术
http://www.williamlong.info/archives/333.html 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。   搜索引擎技术的研究,...
分类:其他好文   时间:2016-03-26 07:12:01    阅读次数:138
hadoop的wordcount的改动版
//这个是在原来的基础上改动以后得到的,将当中的分词的根据给换掉了,而且进行词频统计的时候会自己主动的忽略大写和小写 packageorg.apache.hadoop.mapred; importjava.io.IOException; importjava.util.ArrayList; impo ...
分类:其他好文   时间:2016-03-23 21:40:57    阅读次数:261
用R进行文本分析初探——以《红楼梦》为例
刚刚接触R语言和文本分析,为了将二者结合,试着对《红楼梦》进行分析,首先对《红楼梦》进行分词处理,并统计词频,同时画出标签云。 其实文本分析还可以分析其它很多东西,我的下一步打算分析新浪微博。现在先写一个小的分析,作为学习用。 文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的
分类:其他好文   时间:2016-03-21 18:22:35    阅读次数:1138
Solr配置中文分词器IKAnalyzer及增删改查调用
一、配置IKAnalyzer中文分词器Solr版本5.2.1IKAnalyzer2012_u6.jar报错,用IKAnalyzer2012_FF_hf1.jar替换可解决解决lucene4.0与IKAnalyzer的冲突。解决Exceptioninthread"main"java.lang.VerifyError:classorg.wltea.analyzer.lucene.IKAnalyzeroverridesfinalmethodtokenStrea..
分类:其他好文   时间:2016-03-20 18:09:01    阅读次数:1197
Windows ElasticSearch中文分词配置
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍ik的用法, 当我们创建一个index(库db_news)时,easticsearch默认提供的分
分类:Windows程序   时间:2016-03-08 16:24:50    阅读次数:474
solr.Net课程三 solr5.5 IKAnalyzer分词配置
在使用IK之前同样也需要下载IK的jar包请点击下载,接下来我们对下载的文件进行配置 第一步:先将IKAnalyzer2012FF_u2.jar文件复制到tomcat目录webapps\solr5.5\WEB-INF\lib下 第二步:将IKAnalyzer.cfg.xml和stopword.dic
分类:Web程序   时间:2016-03-07 19:17:58    阅读次数:177
lucene-一篇分词器介绍很好理解的文章
本文来自这里在前面的概念介绍中我们已经知道了分析器的作用,就是把句子按照语义切分成一个个词语。英文切分已经有了很成熟的分析器: StandardAnalyzer,很多情况下StandardAnalyzer是个不错的选择。甚至你会发现StandardAnalyzer也能对中文进行分词。但是我们的焦点是
分类:Web程序   时间:2016-03-01 22:15:22    阅读次数:165
NLPIR分词工具的使用(java环境下)
一、NLPIR是什么? NLPIR(汉语分词系统)由中科大张华平博士团队开发,主要功能包括:中文分词,词性标注,命名实体识别,用户词典功能,详情见官网:http://ictclas.nlpir.org/。 二、java环境下的使用: 主要参考了如下资料:http://www.360doc.com/c
分类:编程语言   时间:2016-02-28 09:48:22    阅读次数:305
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!