看LuceneinAction的时候,练习的一个入门例子。在使用Lucene进行文本内容搜索前,需要先对指定的目录下的文件进行建立索引,代码如下:importjava.io.File;
importjava.io.FileFilter;
importjava.io.FileReader;
importjava.io.IOException;
importorg.apache.lucene.analysi..
分类:
其他好文 时间:
2014-08-20 16:38:53
阅读次数:
312
【Open Search产品评测】--淘点点:基于OpenSearch,轻松实现一整套O2O类搜索解决方案[使用背景] 我们淘点点团队应该可以算是内网首批使用opensearch来搭建应用的团队了,在此之前,一直使用集团内一个基于lucene的引擎平台。对于淘点点特定的排序需求,都需要该团队配合.....
分类:
其他好文 时间:
2014-08-20 15:54:12
阅读次数:
140
上一篇学习了构建索引,这一篇来检索索引,同样是基础的用法。准备工作参考文档 1) http://lucene.apache.org/core/4_9_0/demo/src-html/org/apache/lucene/demo/SearchFiles.html依赖jar包 上篇Lucene实践之S....
分类:
其他好文 时间:
2014-08-20 11:57:32
阅读次数:
236
本人看到这篇非常不错的Lucene.Net入门基础教程,就转载分享一下给大家来学习,希望大家在工作实践中可以用到。 一.简单的例子 //索引Private void Index(){ IndexWriter writer = new IndexWriter(@"E:\Index", new St.....
分类:
Web程序 时间:
2014-08-19 23:52:45
阅读次数:
326
Solr4.8.0源码分析(4)之Eclipse Solr调试环境搭建由于公司里的Solr调试都是用远程jpda进行的,但是家里只有一台电脑所以不能jpda进行调试,这是因为jpda的端口冲突。所以只能在Eclipse 搭建Solr的环境,折腾了一小时终于完成了。1. JDPA远程调试搭建换完成So...
分类:
系统相关 时间:
2014-08-19 23:45:25
阅读次数:
586
【Open Search产品评测】-- 来往,7天轻松定制属于自己的搜索引擎[使用背景] 相信很多人都遇到过要给网站或者app做一个搜索功能的需求,很久之前自己折腾过lucene,搞了很久,要自己搞中文分词(比如用中科院的那个)重写tokenizer,自己建索引,做实时更新流程,数据量大了还要考虑怎...
分类:
其他好文 时间:
2014-08-19 18:41:15
阅读次数:
205
1、索引的管理//指定索引库文件存放文件位置FSDirectory directory = FSDirectory.Open(new DirectoryInfo(this.IndexDataDir), new NativeFSLockFactory());//判断索引文件目录是否存在bool isE...
分类:
Web程序 时间:
2014-08-19 00:51:13
阅读次数:
352
抓取的网页内容中,有大部分会是相似的,抓取时就要过滤掉,开始考虑用VSM算法,后来发现不对,要比较太多东西了,然后就发现了simHash算法,这个算法的解释我就懒得copy了,simhash算法对于短数据的支持不好,但是,我本来就是很长的数据,用上! 源码实现网上也有不少,但是貌似都是同样的,...
分类:
Web程序 时间:
2014-08-17 23:59:23
阅读次数:
709
##总结一## 阅读别人的代码作为开发人员是一件经常要做的事情。一个是学习新的编程语言的时候通过阅读别人的代码是一个最好的学习方法,另外是积累编程经验。如果你有机会阅读一些操作系统的代码会帮助你理解一些...
分类:
其他好文 时间:
2014-08-17 21:28:23
阅读次数:
252
1.solr原理:我本人的理解:solr是为解决高性能的全文索引而出现的,它将用户输入的关键字进行智能分解,分解成一个个词,过滤掉一些多余的停词及空格等,比如,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎 每个网页上都存在,所以搜索引擎开发人员都将这...
分类:
其他好文 时间:
2014-08-17 18:26:52
阅读次数:
200