DOM4J是dom4j.org出品的一个开源XML解析包,它的网站中这样定义:Dom4j is an easy to use, open source library for working with XML, XPath and XSLT on the Java platform using th...
分类:
其他好文 时间:
2014-06-18 16:34:47
阅读次数:
302
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-06-18 14:09:29
阅读次数:
162
近来方案做个爬虫的小比如,后来想想干脆运用的全部一点,今后就作为是个工程笔记,忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西,直接用就OK。下一方案方案看看compass,是一个封装了LuceneAPI的一个结构,用起来有点类似Hibernate,值得学习一下~ 好了,先个我们共享一...
分类:
其他好文 时间:
2014-06-17 14:15:31
阅读次数:
193
原来看lucene4.0的posting格式(http://blog.csdn.net/jollyjumper/article/details/30017581),发现这还是比较简单的VInt格式,据说VInt压缩解压都不错(medium),但解压时分支太多打乱CPU流水线因而不够高效,流行的索引压缩有很多,for,simple9,simple16,PForDelta是比较流行的一种,发现luce...
分类:
其他好文 时间:
2014-06-16 22:35:40
阅读次数:
355
1、在Lucene4.x前,使用以下方式创建一个Field:
Field field = new Field("filename", f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED);
Field field = new Field("contents", new FileReader(f));
Field field = new...
分类:
其他好文 时间:
2014-06-16 14:43:13
阅读次数:
242
package com.mylucene;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.io.Reader;
import java.nio.CharBuffer;
import java.util.ArrayList;
import java.util.List;...
分类:
其他好文 时间:
2014-06-15 17:50:57
阅读次数:
253
问题描述:将一句话拆分成单个字符,并且去掉空格。
package com.mylucene;
import java.io.IOException;
import java.io.Reader;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.Ch...
分类:
其他好文 时间:
2014-06-14 09:22:17
阅读次数:
235
多级跳跃表是保存在tim文件中的。
tip是term index,tim是term dictionary。记忆方法是,p是pointer因此是term index。
这个类会保存多个level的last变量和cur变量,同时使用RAMOutputStream数组缓存不同级别跳跃表的内容,一个term的所有doc添加完后才写入tim文件。几个主要方法:
resetSkip:几个last变量重置...
分类:
其他好文 时间:
2014-06-14 06:36:07
阅读次数:
386
转自:http://www.blogjava.net/Carter0618/archive/2008/08/11/221222.htmlSpring
Framework【Java开源J2EE框架】Spring 是一个解决了许多在J2EE开发中常见的问题的强大框架。 Spring提供了管理业务对象的一...
分类:
编程语言 时间:
2014-06-13 15:39:13
阅读次数:
888