原文:Lucene.Net 2.3.1开发介绍 —— 二、分词(四) 2.1.2 可以使用的内置分词 简单的分词方式并不能满足需求。前文说过Lucene.Net内置分词中StandardAnalyzer分词还算比较实用(见1.1.2小节)。StandardAnalyzer为什么能满足我们的部分需求,...
分类:
Web程序 时间:
2015-06-26 16:17:08
阅读次数:
225
原文:Lucene.Net 2.3.1开发介绍 —— 二、分词(三) 1.3 分词器结构 1.3.1 分词器整体结构 从1.2节的分析,终于做到了管中窥豹,现在在Lucene.Net项目中添加一个类关系图,把TokenStream和他的儿孙们统统拉上去,就能比较好的把握他们之间的关系。 图 1.3....
分类:
Web程序 时间:
2015-06-26 16:15:47
阅读次数:
153
原文:使用Lucene.Net实现全文检索目录 一 Lucene.Net概述 二 分词 三 索引 四 搜索 五 实践中的问题 一 Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库,其源码包括“核心”与“外围”两部分。外围部分实现辅助功能,而核心部分包括: Lucene.N...
分类:
Web程序 时间:
2015-06-26 14:59:59
阅读次数:
118
原文:让盘古分词支持最新的Lucene.Net 3.0.3好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。 然后我知...
分类:
Web程序 时间:
2015-06-26 14:58:45
阅读次数:
139
原文:基于MMSeg算法的中文分词类库最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(http://www.cnblogs.com/land/archive/2011/07/19/mmseg4...
分类:
编程语言 时间:
2015-06-26 14:55:47
阅读次数:
152
我们收集了一些信息。和学生在一起的简单测试,例如下面的摘要。字工作具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnaly...
分类:
其他好文 时间:
2015-06-21 10:35:12
阅读次数:
105
NLPIR工具 支持自定义词表; 可以离线使用;下载地址:http://ictclas.nlpir.org/newsdownloads?DocId=389在线演示:http://ictclas.nlpir.org/nlpir/自然语言处理与信息检索共享平台:(nlpir相关的一些软件、文档、论文.....
分类:
编程语言 时间:
2015-06-18 12:53:51
阅读次数:
5300
solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个中文分词器mmseg4jmmseg4j的下载地址:https://code.google.com/p/mmseg4j/通过以下几步就可以把mmseg4j分词器集成到solr中:1、解压mmseg4j-1.9.1.zip,把dist...
分类:
其他好文 时间:
2015-06-16 19:01:59
阅读次数:
128
本文针对的问题是 ICTCLASS2015 的多线程分词,为了实现多线程做了简单的JAVA封装。如果有需要可以自行进一步封装其它接口。 首先ICTCLASS2015的传送门(http://ictclas.nlpir.org/),其对中文分词做的比较透彻,而且有一定的可调式性。但是应用到实际开发...
分类:
编程语言 时间:
2015-06-16 16:39:59
阅读次数:
268