原来的string docvalues使用utf-8编码,载入时转码花费大量时间,我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,降低了大约十秒的时间。想进一步优化,我们使用UTF-16LE编码,解码很easy甚至仅仅...
分类:
其他好文 时间:
2014-07-09 21:19:59
阅读次数:
226
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-07-08 23:15:59
阅读次数:
231
假如你像用lucene来作分组,比如按类别分组,这种功能,好了你压力大了,lucene本身是不支持分组的。当你想要这个功能的时候,就可能会用到基于lucene的搜索引擎solr。不过也可以通过编码通过FieldCache和单字段,对索引进行分组,比如:想构造类别树。大类里面还有小类那种。这个功能实现...
分类:
其他好文 时间:
2014-07-08 00:32:03
阅读次数:
247
引言如果你对naive bayes认识还处于初级阶段,只了解基本的原理和假设,还没有实现过产品级的代码,那么这篇文章能够帮助你一步步对原始的朴素贝叶斯算法进行改进。在这个过程中你将会看到朴素贝叶斯假设的一些不合理处以及局限性,从而了解为什么这些假设在简化你的算法的同时,使最终分类结果变得糟糕,并针对...
分类:
其他好文 时间:
2014-07-07 10:44:41
阅读次数:
171
6.3内存索引库
6.3.1特点
在内存中开辟一块空间,专门为索引库存放。这样有以下几个特征:
1) 因为索引库在内存中,所以访问速度更快。
2) 在程序退出时,索引库中的文件也相应的消失了。
3) 如果索引库比较大,必须得保证足够多的内存空间。
6.3.2编码
在cn.hqu.directory 下新建:DirectoryT...
分类:
其他好文 时间:
2014-07-06 08:11:33
阅读次数:
188
一、Solr学习相关资料
1、官方材料
(1)快速入门:http://lucene.apache.org/solr/4_9_0/tutorial.html,以自带的example项目快速介绍发Solr的基础使用。
(2)API:http://lucene.apache.org/solr/4_9_0/index.html
(3)reference:PDF格式,apache-solr-ref-...
分类:
其他好文 时间:
2014-07-03 16:56:58
阅读次数:
245
1持久层:1)Hibernate这个不用介绍了,用的很频繁,用的比较多的是映射,包括继承映射和父子表映射对于DAO在这里介绍个在它基础上开发的包bba96,目前最新版本是bba96 2.0它对Hibernate进行了封装, 查询功能包括执行hsql或者sql查询/更新的方法,如果你要多层次逻辑的条件...
分类:
其他好文 时间:
2014-07-01 11:58:55
阅读次数:
218
最近有个项目要用solr,solr是基于lucene的,今天在测试indexwriter时遇到了lock的问题:测试代码:importjava.io.File;
importjava.io.IOException;
importorg.apache.lucene.analysis.Analyzer;
importorg.apache.lucene.analysis.standard.StandardAnalyzer;
importorg.apac..
分类:
其他好文 时间:
2014-07-01 09:40:53
阅读次数:
295
创建索引的过程如下:
(1)、建立索引器IndexWriter,这相当于一本书的框架
(2)、建立文档对象Document,这相当于一篇文章
(3)、建立信息字段对象Field,这相当于一篇文章中的不同信息(标题、正文等)。
(4)、将Field添加到Document里面。
(5)、将Document添加到IndexWriter里面。
(6)、关闭索引器IndexWriter。...
分类:
其他好文 时间:
2014-07-01 06:30:34
阅读次数:
334