基本原理词典的存储基于规则的分词词性标注未登录词识别关键词提取:TF-IDF
分类:
其他好文 时间:
2014-09-10 21:01:11
阅读次数:
162
1. IKAnalyzer3.0介绍 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词...
分类:
其他好文 时间:
2014-09-10 12:47:00
阅读次数:
374
4.1分词器的核心类1.AnalyzerLucene内置分词器SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer主要作用:KeywordAnalyzer分词,没有任何变化;SimpleAnalyzer对中文效果太差;StandardAnalyzer对中文单字拆分;StopAnalyzer和SimpleAnalyzer差不多;White..
分类:
其他好文 时间:
2014-09-09 13:48:09
阅读次数:
250
Lucene系列介绍Lucene:分词器和索引文件目录分词器索引文件结构常用的中文分词器1、分词器分词器,对文本资源进行切分,将字符文本串按照一定的规则切分为一个个可以进行索引的最小单位(关键词),以便检索时使用。建立索引和进行检索时都要用到分词器。为了保证能正确的检索到结果,在建立索引与进行检索时...
分类:
其他好文 时间:
2014-09-06 08:35:42
阅读次数:
199
概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——...
分类:
其他好文 时间:
2014-09-05 21:09:12
阅读次数:
420
软件包准备NLPIR/ICTCLAS2014分词系统下载包Dev-C++操作系统Windows解压分词系统下载包后看到在这里Windows下所需要的是Data、include中的NLPIR.h、lib中win32的NLPIR.libNLPIR.dll,文件使用方法待会儿再说。在 Dev C++中新建...
分类:
编程语言 时间:
2014-09-04 18:25:59
阅读次数:
289
1. for i in `ls *.mp3` 常见的错误写法: for i in `ls *.mp3`; do # Wrong! 为什么错误呢?因为for...in语句是按照空白来分词的,包含空格的文件名会被拆 成多个词。如遇到 01 - Don‘t Eat the Yellow Snow...
分类:
其他好文 时间:
2014-09-04 09:49:38
阅读次数:
179
本文主要讲解IKAnalyzer(以下简称‘IK’)在Lucene中的具体使用,关于Lucene和IK分词器的背景及其作用在这里就不再熬述。不得不感叹下Lucene版本变更的快速,如今最新已经到了4.9.0,相信任何技术的发展壮大都不...
分类:
其他好文 时间:
2014-09-02 18:16:05
阅读次数:
331
1. 排序1.1. Sort类public Sort()public Sort(String field)public Sort(String field,Boolean reverse) //默认为false,降序排序public Sort(String[] fields)public Sort(...
分类:
其他好文 时间:
2014-09-02 17:09:55
阅读次数:
433
原文链接地址:http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation/ 逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子: 输入例句:S1=”计算语言学课程有意思” ; 定义:最大词长M...
分类:
其他好文 时间:
2014-09-02 13:55:34
阅读次数:
248