lucene3.0+版本中文分词测试+搜索结果+创建索引测试
import java.io.File;
import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache....
分类:
Web程序 时间:
2015-07-10 15:26:45
阅读次数:
166
1. Chinese Segmentation Introduction最近两天系统的研究了一下中文分词算法,在这里做个简单的总结。中文分词可以分为(1)基于词典的分词 和(2)非基于词典的分词。
基于词典的分词包括:
* MMSEG
* Forward/Backward matching
* 最小切分非基于词典的分词主要是通过统计学计算概率的方法进行中文分词,例如CRF, is p...
分类:
其他好文 时间:
2015-07-06 16:06:51
阅读次数:
242
使用Lucene.Net实现全文检索目录一Lucene.Net概述二 分词三 索引四 搜索五 实践中的问题一Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库,其源码包括“核心”与“外围”两部分。外围部分实现辅助功能,而核心部分包括:Lucene.Net.Index 提供....
分类:
Web程序 时间:
2015-07-05 12:16:02
阅读次数:
200
16配置IK中文分词器。
1.下载最新的Ik中文分词器。
下载地址:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip
2.解压IK Analyzer 2012FF_hf1.zip,获得IK Analyzer 2012FF_hf1。将该目录下的IKAnalyzer.cfg.xml,stopword....
分类:
其他好文 时间:
2015-07-05 09:35:45
阅读次数:
168
一.分词软件简介主流分词软件挑重要的讲,目前的分词软件很多,也比较杂。这里列举一些效果比较好的分词软件。Stanford Word Segmenter (Java,GPL) 老牌美帝斯坦佛大学NLP小组出品nlpbamboo (C++, BSD) PostgreSQL的大大们制作的一个基于CRF++...
分类:
编程语言 时间:
2015-07-01 17:27:55
阅读次数:
301
Maven引用坐标:12345org.tinygroupchinese0.0.12Tiny中文分词是本人一开始做的一个验证性开发,结果开发出来效果还非常不错,因此就加入到Tiny框架中。Tiny中文分词支持下面的功能:1.中文分词2.中文转化拼音3.词性标注中文分词,就是把中文句子分解成一个一个的词...
分类:
其他好文 时间:
2015-07-01 11:40:47
阅读次数:
113
1.简介
stanford分词目前支持 Arabic 和 Chinese。它的原理是基于CRFs, CRFs分词的原理不难懂,就是把分词当作另一种形式的命名实体识别,利用特征建立概率图模型后,用Veterbi算法求最短路径。stanford
nlp提供了源码demo,目前的版本是3.5.2。
下载地址:http://nlp.stanford.edu/software/segmenter.s...
分类:
其他好文 时间:
2015-07-01 10:00:10
阅读次数:
888
基于社交网络的情绪化分析IIIBy 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。前面进行了微博数据的抓取,简单的处理,这一篇进行学校微博的相似度分析。微博相似度分析这里试图计算任意两个学校之间的微博用词的相似度。思路:首先对学校微博进行分词,遍历获取每个学校的高频用词词典,组建用词基向量,使用该基向量构建每个学校的用词向量,最后使用TF-IDF算...
分类:
其他好文 时间:
2015-06-28 17:36:26
阅读次数:
160
原文:Lucene.Net 2.3.1开发介绍 —— 二、分词(五)2.1.3 二元分词 上一节通过变换查询表达式满足了需求,但是在实际应用中,如果那样查询,会出现另外一个问题,因为,那样搜索,是只要出现这个字,不管它出现在什么位置。这就产生了上一小节开头讲的,对准确性产生了极大干扰。比如,如果有一...
分类:
Web程序 时间:
2015-06-26 17:35:09
阅读次数:
137