码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
基于lucene的案例开发:分词器介绍
在lucene创建索引的过程中,分词技术是一个十分重要的环节,介绍了7中比较常见的分词技术 CJKAnalyzer、KeywordAnalyzer、SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer、IKAnalyzer...
分类:Web程序   时间:2015-01-20 15:51:03    阅读次数:233
python 中文分词:结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了...
分类:编程语言   时间:2015-01-17 15:11:28    阅读次数:183
如何使用Pig集成分词器来统计新闻词频?
散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种各样的,Pig的内置函数,仅仅解决了80%我们常用的功能,如果稍微我有一些特殊的..
分类:其他好文   时间:2015-01-17 06:39:09    阅读次数:270
如何使用Pig集成分词器来统计新闻词频?
散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种各样的,Pig的内置函数,仅仅解决了80%我们常用的功能,如果稍微我有一些特殊的需求,就会发现内置函...
分类:其他好文   时间:2015-01-16 22:10:36    阅读次数:262
solr集成mmseg4j分词
到了分词这部,相信你已经把solr整合到tomcat里了,没有的话看我前面的文章有讲到。我这里使用的是mmseg4j-1.9.1版本的。http://down.51cto.com/data/1275975这个是下载zip的链接。解压后把mmseg4j-1.9.1 文件夹下dist下的三个jar包拷贝...
分类:其他好文   时间:2015-01-16 18:25:37    阅读次数:235
Lucene、Compass学习以及与SSH的整合
一、准备 个人在学习中采用Struts2 + Hibernate3.2 + Spring2.5 + Compass2.2.0, 一下图片为本次学习中用到的jar包:图中圈出的jar包为本次学习的主要部分,另外用绿色框圈出的jar包为分词器,主要用来做实验看分词效果的,选用一个即可。二、什么是Comp...
分类:Web程序   时间:2015-01-15 19:59:29    阅读次数:215
ES1.4 中文分词插件ik
ES官方只支持smartcn这个中文分词插件,是按照单个字进行索引。前端产品搜索时,凡是带这个关键字的都会被索引到。打个比方:搜索"苹果"关键词,凡是包含"苹"和"果"的title都会被索引到。所以为了这个需求,找一个第三方的中文分词插件.看了一下,国内有几款中分分词插件:ik、an..
分类:其他好文   时间:2015-01-15 16:14:45    阅读次数:384
几个开源分词系统所使用标注集的来源
http://www.hankcs.com/nlp/corpus/several-revenue-segmentation-system-used-set-of-source-tagging.html我发现几个民间的分词项目的词典很乱,ansj分词的作者承认arrays.dic是从结巴分词抄过来的,...
分类:其他好文   时间:2015-01-15 12:35:19    阅读次数:280
词性标注
http://www.hankcs.com/nlp/part-of-speech-tagging.html词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容...
分类:其他好文   时间:2015-01-14 19:45:03    阅读次数:729
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!