搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

基于lucene的案例开发：分词器介绍

在lucene创建索引的过程中，分词技术是一个十分重要的环节，介绍了7中比较常见的分词技术 CJKAnalyzer、KeywordAnalyzer、SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer、IKAnalyzer...

分类：Web程序时间：2015-01-20 15:51:03 阅读次数：233

python 中文分词：结巴分词

中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点：基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的HMM模型，使用了...

分类：编程语言时间：2015-01-17 15:11:28 阅读次数：183

如何使用Pig集成分词器来统计新闻词频？

散仙在上篇文章中，介绍过如何使用Pig来进行词频统计，整个流程呢，也是非常简单，只有短短5行代码搞定，这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程，当然，我们的需求是各种各样的，Pig的内置函数，仅仅解决了80%我们常用的功能，如果稍微我有一些特殊的..

分类：其他好文时间：2015-01-17 06:39:09 阅读次数：270

如何使用Pig集成分词器来统计新闻词频？

散仙在上篇文章中，介绍过如何使用Pig来进行词频统计，整个流程呢，也是非常简单，只有短短5行代码搞定，这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程，当然，我们的需求是各种各样的，Pig的内置函数，仅仅解决了80%我们常用的功能，如果稍微我有一些特殊的需求，就会发现内置函...

分类：其他好文时间：2015-01-16 22:10:36 阅读次数：262

solr集成mmseg4j分词

到了分词这部，相信你已经把solr整合到tomcat里了，没有的话看我前面的文章有讲到。我这里使用的是mmseg4j-1.9.1版本的。http://down.51cto.com/data/1275975这个是下载zip的链接。解压后把mmseg4j-1.9.1 文件夹下dist下的三个jar包拷贝...

分类：其他好文时间：2015-01-16 18:25:37 阅读次数：235

Lucene、Compass学习以及与SSH的整合

一、准备个人在学习中采用Struts2 + Hibernate3.2 + Spring2.5 + Compass2.2.0，一下图片为本次学习中用到的jar包：图中圈出的jar包为本次学习的主要部分，另外用绿色框圈出的jar包为分词器，主要用来做实验看分词效果的，选用一个即可。二、什么是Comp...

分类：Web程序时间：2015-01-15 19:59:29 阅读次数：215

ES1.4 中文分词插件ik

ES官方只支持smartcn这个中文分词插件，是按照单个字进行索引。前端产品搜索时，凡是带这个关键字的都会被索引到。打个比方:搜索"苹果"关键词，凡是包含"苹"和"果"的title都会被索引到。所以为了这个需求，找一个第三方的中文分词插件.看了一下，国内有几款中分分词插件:ik、an..

分类：其他好文时间：2015-01-15 16:14:45 阅读次数：384

几个开源分词系统所使用标注集的来源

http://www.hankcs.com/nlp/corpus/several-revenue-segmentation-system-used-set-of-source-tagging.html我发现几个民间的分词项目的词典很乱，ansj分词的作者承认arrays.dic是从结巴分词抄过来的，...

分类：其他好文时间：2015-01-15 12:35:19 阅读次数：280

词性标注

http://www.hankcs.com/nlp/part-of-speech-tagging.html词性标注（Part-of-Speech tagging 或POS tagging)，又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容...

分类：其他好文时间：2015-01-14 19:45:03 阅读次数：729

共2158条上一页 1 ... 185 186 187 188 189 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)