lucene.net中每个分词器都是一个类,同时有一个辅助类,这个辅助类完成分词的大部分逻辑。分词类以Analyzer结尾,辅助类通常以Tokenizer结尾。分类词全部继承自Analyzer类,辅助类通常也会继承某个类。首先在Analysis文件夹下建立两个类,EasyAnalyzer和EasyT...
分类:
Web程序 时间:
2014-07-23 22:24:47
阅读次数:
268
本文配置环境:solr4.6+ IK2012ff +tomcat7在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口TokenizerFactory。因此IK分词器2012 FF版本也取消了org.wltea.analy...
分类:
其他好文 时间:
2014-07-23 20:20:15
阅读次数:
288
精确查询(不需要切分词):得使用KeywordAnalyzer而不是StandardAnalyzer,原因如下:StandardAnalyzer:KeywordAnalyzer:
分类:
其他好文 时间:
2014-07-23 12:41:36
阅读次数:
246
一、为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(...
分类:
其他好文 时间:
2014-07-23 12:20:06
阅读次数:
263
在文本分类和聚类种,都会对文本进行切词分词,然后转化为向量,最后求其TFIDF值,余弦相似性等。
本文将介绍了WEKA源码中StringToWordVector中的源码知识,自己也可以基于这个类构建符合自己需求的StringToWordVector类。...
分类:
其他好文 时间:
2014-07-22 23:58:49
阅读次数:
640
Lucene 4.9 === #基础准备 - 了解常用分词器,选择合适分词器 - 读取文件编码要正确,非TXT文档需要进行特殊处理或特殊工具读取后才进行分词处理 - TextField内容不能保存过长,最大长度是32766个字节 #StringFie...
分类:
其他好文 时间:
2014-07-22 08:31:36
阅读次数:
192
2804:词典
总时间限制: 3000ms 内存限制: 65536kB
描述
你旅游到了一个国外的城市。那里的人们说的外国语言你不能理解。不过幸运的是,你有一本词典可以帮助你。
输入
首先输入一个词典,词典中包含不超过100000个词条,每个词条占据一行。每一个词条包括一个英文单词和一个外语单词,两个单词之间用一个空格隔开。而且在词典中不会有某个外语单...
分类:
其他好文 时间:
2014-07-21 16:23:12
阅读次数:
237
1.1Lucene的使用在全文索引工具中,都是由这样的三部分组成1、索引部分(Iamaboy)2、分词部分3、搜索部分1.2Lucene系统架构索引过程的核心类:IndexWriterDirectoryAnalyzerDocumentField搜索过程的核心类:IndexSearcherTermQueryTermQueryTopDocsScoreDoc1.3Lucene系统架构图
分类:
其他好文 时间:
2014-07-20 15:33:11
阅读次数:
285
最大概率分词是一种最基本的统计方法分词。一个待分割的字符串有多种分词结果,最大概率分词的原则是将其中概率最大的那个作为该字符串的分词结果。
第一部分 理论基础
如对一个字符串:
S:有意见分歧
分词结果1: w1:有/ 意见/ 分歧/
分词结果2: w2:有意/ 见/ 分歧/
最大概率分...
分类:
其他好文 时间:
2014-07-19 11:22:44
阅读次数:
161
/*
* 文本格式:已分词的中文文本,空格分割。有若干行,每行为一个段落。
* 功能:遍历文档,逐个返回词语。
* 两种模式:
* 1 到文档末尾后,结束
* 2 到文档末尾后,从头再读。
/...
分类:
编程语言 时间:
2014-07-19 02:16:37
阅读次数:
238