Lucene是Apache开源的全文检索框架, 是单纯的搜索工具, 简单易用. 现在已经出到5.2.1的版本, 只需在项目中导入必需的几个jar包就能使用. 使用的过程可以概括为,
1) 建立索引
2) 搜索查找, 获取搜索结果
这里我们一起先来学习几个会用到的核心类:
Directory
该类在Lucene中用于描述索引存放的位置信息. 比如:
Directory ...
分类:
Web程序 时间:
2015-08-09 02:00:04
阅读次数:
138
IDC评述网(idcps.com)08月06日报道:根据市场研究公司NetApplications最新数据显示,在7月全球搜索引擎市场上,Google–Global以70.23%的份额位居第1,环比上月,降幅0.57%。而第2名Bing的份额持续增长,环比增加0.50%,突破10%。下面,请与IDC评述网一起关注7月全球搜索引?.
分类:
其他好文 时间:
2015-08-06 13:36:28
阅读次数:
121
paste fromhttp://www.cnblogs.com/xinyu1020/articles/1785858.htmlString.IndexOfString.IndexOf 方法 (Char, Int32, Int32)报告指定字符在此实例中的第一个匹配项的索引。搜索从指定字符位置开始,...
分类:
其他好文 时间:
2015-07-14 19:51:14
阅读次数:
91
Lucene总的来说是:
一个高效的,可扩展的,全文检索库。 全部用Java实现,无须配置。 仅支持纯文本文件的索引(Indexing)和搜索(Search)。 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。
在Lucene in action中,Lucene 的构架和过程如下图,
说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。...
分类:
Web程序 时间:
2015-05-15 20:02:03
阅读次数:
176
文档内容说明
文档内容主要涉及基于 http://git.oschina.net/xautlx/nutch-ajax 项目内容(额外包含一些Nutch和Solr标准的功能和原理说明但不保证完整性)的设计和开发过程讲解。具体可详见文档目录列表。
主要功能特性
常规的HTML页面抓取: 对于常规的例如新闻类没有AJAX特性的页面可以直接用Nutch自带的protocol-http插件抓取。
常规的AJAX页面抓取: 对于绝大部分诸如jQuery ajax加载的页面,可以直接用htmlunit扩展插件抓取。
...
分类:
其他好文 时间:
2015-05-04 15:33:08
阅读次数:
294
以前一直很无知地认为数据库在搜索引擎的过程中没有多大的作用,直到看到如下的一段话:
数据库怎么没作用呢,索引中的数据也是要从数据库中读过去的...
首先要把数据库中的数据建立一个索引,
以后操作中,增加,删除,修改都得相应的操作索引文件
查询的话就只在索引中查了,而不通过数据库。...
分类:
数据库 时间:
2015-04-12 22:49:28
阅读次数:
220
Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。
文档通过Http利...
分类:
其他好文 时间:
2015-04-11 08:57:52
阅读次数:
158
这里介绍一个基础的搜索引擎技术
假如有两段文字
1,books and friends should be few but good
2,A good book is a good friend
假如我们忽略掉大小写和复数,可以整理出一张单词表,显示哪个单词再哪段文字,
英文单词
文章编号
a
2
and
1
be
1
bo...
分类:
其他好文 时间:
2015-03-29 22:17:03
阅读次数:
450
我们之前已经介绍了IndexSearcher中的检索方法,也介绍了如何基于lucene中的NRT*类去创建实时索引,这里我们就重点介绍下基于实时索引的检索方案,实现NRTSearch基类...
分类:
Web程序 时间:
2015-03-15 21:26:35
阅读次数:
215
检索结构php -> sphinx -> mysql非结构化数据又叫全文数据,非固定长度字段例如文章标题搜索这类适用sphinx全文数据搜索:顺序扫描 : 如like查找索引扫描 : 把非结构化数据中的内容提取出来一部分重新组织,这部分数据就叫做索引全文检索分为两个过程1.创建索引2.搜索索引...
分类:
其他好文 时间:
2015-03-11 21:36:06
阅读次数:
217