搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

yaha分词

# -*- coding=utf-8 -*-import sys, re, codecsimport cProfilefrom yaha import Cuttor, RegexCutting, SurnameCutting, SurnameCutting2, SuffixCuttingfrom y ...

分类：其他好文时间：2016-03-26 10:52:09 阅读次数：182

可定制的分词库——Yaha（哑哈）分词

可定制的分词库——Yaha（哑哈）分词在线测试地址：http://yaha.v-find.com/ 部署于GAE yahademo.appspot.comYaha分词主要特点是把分词过程分成了4个阶段，每个阶段都可以让用户加入自己的一些定制，以面向不同的用户需求。这是一个最简单真白的示例：# -* ...

分类：其他好文时间：2016-03-26 10:51:20 阅读次数：128

搜索引擎技术揭密：中文分词技术

http://www.williamlong.info/archives/333.html 信息的飞速增长，使搜索引擎成为人们查找信息的首选工具，Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加，越来越多的公司开发出自己的搜索引擎，阿里巴巴的商机搜索、8848的购物搜索等也陆续面世，自然，搜索引擎技术也成为技术人员关注的热点。　　搜索引擎技术的研究，...

分类：其他好文时间：2016-03-26 07:12:01 阅读次数：138

hadoop的wordcount的改动版

//这个是在原来的基础上改动以后得到的，将当中的分词的根据给换掉了，而且进行词频统计的时候会自己主动的忽略大写和小写 packageorg.apache.hadoop.mapred; importjava.io.IOException; importjava.util.ArrayList; impo ...

分类：其他好文时间：2016-03-23 21:40:57 阅读次数：261

用R进行文本分析初探——以《红楼梦》为例

刚刚接触R语言和文本分析，为了将二者结合，试着对《红楼梦》进行分析，首先对《红楼梦》进行分词处理，并统计词频，同时画出标签云。其实文本分析还可以分析其它很多东西，我的下一步打算分析新浪微博。现在先写一个小的分析，作为学习用。文本分析是指对文本的表示及其特征项的选取；文本分析是文本挖掘、信息检索的

分类：其他好文时间：2016-03-21 18:22:35 阅读次数：1138

Solr配置中文分词器IKAnalyzer及增删改查调用

一、配置IKAnalyzer中文分词器Solr版本5.2.1IKAnalyzer2012_u6.jar报错,用IKAnalyzer2012_FF_hf1.jar替换可解决解决lucene4.0与IKAnalyzer的冲突。解决Exceptioninthread"main"java.lang.VerifyError:classorg.wltea.analyzer.lucene.IKAnalyzeroverridesfinalmethodtokenStrea..

分类：其他好文时间：2016-03-20 18:09:01 阅读次数：1197

Windows ElasticSearch中文分词配置

elasticsearch官方只提供smartcn这个中文分词插件，效果不是很好，好在国内有medcl大神（国内最早研究es的人之一）写的两个中文分词插件，一个是ik的，一个是mmseg的，下面分别介绍ik的用法，当我们创建一个index（库db_news）时，easticsearch默认提供的分

分类：Windows程序时间：2016-03-08 16:24:50 阅读次数：474

solr.Net课程三 solr5.5 IKAnalyzer分词配置

在使用IK之前同样也需要下载IK的jar包请点击下载,接下来我们对下载的文件进行配置第一步：先将IKAnalyzer2012FF_u2.jar文件复制到tomcat目录webapps\solr5.5\WEB-INF\lib下第二步：将IKAnalyzer.cfg.xml和stopword.dic

分类：Web程序时间：2016-03-07 19:17:58 阅读次数：177

lucene-一篇分词器介绍很好理解的文章

本文来自这里在前面的概念介绍中我们已经知道了分析器的作用，就是把句子按照语义切分成一个个词语。英文切分已经有了很成熟的分析器： StandardAnalyzer，很多情况下StandardAnalyzer是个不错的选择。甚至你会发现StandardAnalyzer也能对中文进行分词。但是我们的焦点是

分类：Web程序时间：2016-03-01 22:15:22 阅读次数：165

NLPIR分词工具的使用（java环境下）

一、NLPIR是什么？ NLPIR(汉语分词系统)由中科大张华平博士团队开发，主要功能包括：中文分词，词性标注，命名实体识别，用户词典功能，详情见官网：http://ictclas.nlpir.org/。二、java环境下的使用：主要参考了如下资料：http://www.360doc.com/c

分类：编程语言时间：2016-02-28 09:48:22 阅读次数：305

共2158条上一页 1 ... 152 153 154 155 156 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)