码迷,mamicode.com
首页 >  
搜索关键字:lucene nrt    ( 2456个结果
深入解析.NET框架
一、AOP框架 Encase 是C#编写开发的为.NET平台提供的AOP框架。Encase 独特的提供了把方面(aspects)部署到运行时代码,而其它AOP框架依赖配置文件的方式。这种部署方面(aspects)的方法帮助缺少经验的开发人员提高开发效率。 NKalore是一款编程语言,它扩展了C#允...
分类:Web程序   时间:2014-06-28 23:26:47    阅读次数:381
Dom4j的使用(全而好的文章)
DOM4J是dom4j.org出品的一个开源XML解析包,它的网站中这样定义:Dom4j is an easy to use, open source library for working with XML, XPath and XSLT on the Java platform using th...
分类:其他好文   时间:2014-06-18 16:34:47    阅读次数:302
几种开源分词工具的比較
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:其他好文   时间:2014-06-18 14:09:29    阅读次数:162
Lucene+网络爬虫
近来方案做个爬虫的小比如,后来想想干脆运用的全部一点,今后就作为是个工程笔记,忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西,直接用就OK。下一方案方案看看compass,是一个封装了LuceneAPI的一个结构,用起来有点类似Hibernate,值得学习一下~好了,先个..
分类:其他好文   时间:2014-06-17 18:09:07    阅读次数:192
海量数据存储
怎样处理海量数据在实际的工作环境下,很多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有下面几个方面:一、数据量过大,数据中什么情况都可能存在。假设说有10条数据,那么大不了每条去逐一检查,人为处理,假设有上百条数据,也能够考虑,假设数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具...
分类:其他好文   时间:2014-06-17 15:02:18    阅读次数:194
Lucene+网络爬虫
近来方案做个爬虫的小比如,后来想想干脆运用的全部一点,今后就作为是个工程笔记,忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西,直接用就OK。下一方案方案看看compass,是一个封装了LuceneAPI的一个结构,用起来有点类似Hibernate,值得学习一下~ 好了,先个我们共享一...
分类:其他好文   时间:2014-06-17 14:15:31    阅读次数:193
Lucene41PostingWriter源码分析
原来看lucene4.0的posting格式(http://blog.csdn.net/jollyjumper/article/details/30017581),发现这还是比较简单的VInt格式,据说VInt压缩解压都不错(medium),但解压时分支太多打乱CPU流水线因而不够高效,流行的索引压缩有很多,for,simple9,simple16,PForDelta是比较流行的一种,发现luce...
分类:其他好文   时间:2014-06-16 22:35:40    阅读次数:355
【Lucene4.8教程之二】域(Field)的用法
1、在Lucene4.x前,使用以下方式创建一个Field: Field field = new Field("filename", f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED); Field field = new Field("contents", new FileReader(f)); Field field = new...
分类:其他好文   时间:2014-06-16 14:43:13    阅读次数:242
lucene定义自己的分词器将其分成单个字符
问题描述:将一句话拆分成单个字符,并且去掉空格。 package com.mylucene; import java.io.IOException; import java.io.Reader; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.tokenattributes.Ch...
分类:其他好文   时间:2014-06-14 09:22:17    阅读次数:235
Lucene40SkipListWriter
多级跳跃表是保存在tim文件中的。 tip是term index,tim是term dictionary。记忆方法是,p是pointer因此是term index。 这个类会保存多个level的last变量和cur变量,同时使用RAMOutputStream数组缓存不同级别跳跃表的内容,一个term的所有doc添加完后才写入tim文件。几个主要方法: resetSkip:几个last变量重置...
分类:其他好文   时间:2014-06-14 06:36:07    阅读次数:386
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!