1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view&搜索引擎 NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游In...
分类:
其他好文 时间:
2014-07-26 01:46:06
阅读次数:
442
前言从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发的标准。在Hadoop原有技术基础之上,出现了Hadoop家族产品,通过“大数据”概...
分类:
其他好文 时间:
2014-07-25 14:13:02
阅读次数:
446
索引的原文档(Document)。为了方便说明索引创建过程,这里特意用两个文件为例:文件一:Students should be allowed to go out with their friends, but not allowed to drink beer.文件二:My friend Jer...
分类:
其他好文 时间:
2014-07-25 03:19:37
阅读次数:
201
注明:本文是由本人在开发有关基于lucene资源检索系统时的一点总结,当中一部分是自己依据开发过程自己总结的,也有部分是摘自网络,因无法获取当时摘文的地址,所以在此没有写源地址。转载请声明出处Lucene-3.0.0配置一、Lucene开发环境配置step1.Lucene开发包下载step2.Jav...
分类:
其他好文 时间:
2014-07-24 17:07:56
阅读次数:
262
从需求出发并不是一句空话,在开发过程中也是如此。
从需求出发,实质上是暗合了极限编程和测试驱动开发的一些思想。
鉴于网站开发是一个比较流行的方向,我打算从一个网站开始,阐述一下自己对“需求驱动开发“的理解,并将其引申到一个更广泛的领域。...
分类:
其他好文 时间:
2014-07-24 10:37:26
阅读次数:
395
从需求出发并不是一句空话,在开发过程中也是如此。
从需求出发,实质上是暗合了极限编程和测试驱动开发的一些思想。
鉴于网站开发是一个比较流行的方向,我打算从一个网站开始,阐述一下自己对“需求驱动开发“的理解,并将其引申到一个更广泛的领域。...
分类:
其他好文 时间:
2014-07-24 10:35:53
阅读次数:
373
1、关于默认搜索域
If you are using the Lucene query parser, queries that don't specify a field name will use the defaultSearchField. The DisMax and Extended DisMax query parsers do not use this value.
...
分类:
其他好文 时间:
2014-07-23 22:38:28
阅读次数:
279
lucene.net中每个分词器都是一个类,同时有一个辅助类,这个辅助类完成分词的大部分逻辑。分词类以Analyzer结尾,辅助类通常以Tokenizer结尾。分类词全部继承自Analyzer类,辅助类通常也会继承某个类。首先在Analysis文件夹下建立两个类,EasyAnalyzer和EasyT...
分类:
Web程序 时间:
2014-07-23 22:24:47
阅读次数:
268
本文配置环境:solr4.6+ IK2012ff +tomcat7在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口TokenizerFactory。因此IK分词器2012 FF版本也取消了org.wltea.analy...
分类:
其他好文 时间:
2014-07-23 20:20:15
阅读次数:
288