码迷,mamicode.com
首页 >  
搜索关键字:lucene 全文检索    ( 2861个结果
计算机科学精彩帖子收集
inux源码LXR 源自“the Linux Cross Referencer”,中间的“X”形象地代表了“Cross”。与 Source Navigator 类似,它也是分析阅读源代码的好工具。不同的是,它将源代码借助浏览器展示出来,文件间的跳转过程成了我熟悉的点击超链接动作。http://lxr...
分类:其他好文   时间:2014-06-06 14:22:54    阅读次数:406
全文检索技术与Lucene的使用
概念 在谈全文检索之前,首先让我们来了解一下什么是信息检索。信息检索就是从信息集合中找出与用户需求相关的信息。被检索的信息除了文本外,还有图像、音频、视频等多媒体信息,这里我们只讨论文本信息的检索。 全文检索是信息检索技术的一种,主要是把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求与文本语义上的匹配。在信息检索工具中,全文检索是最具通用性和实用性的。...
分类:其他好文   时间:2014-06-05 07:42:26    阅读次数:265
lucene学习笔记(三)
好几天没更新了。更新一下,方便自己和大家学习。这是最基本的代码package index;import java.io.File;import java.io.IOException;import java.util.HashMap;import java.util.Map;import org.a...
分类:其他好文   时间:2014-06-04 16:23:48    阅读次数:348
eclipse扩容
-vmD:/jdk-6u17-windows-i586/jdk1.6.0_17/bin/javaw.exe-startupplugins/org.eclipse.equinox.launcher_1.3.0.v20120522-1813.jar-nlen_US--launcher.librarypl...
分类:系统相关   时间:2014-06-03 06:36:03    阅读次数:260
开源 免费 java CMS - FreeCMS1.9 全文检索
项目地址:http://code.google.com/p/freecms/ 全文检索     从FreeCMS 1.7开始支持 只有创建过索引的对象才能被lucene类标签查询到。 信息类数据会在信息更新、审核、删除、还原操作时自动进行全文检索处理。 1. 创建索引 从左侧管理菜单点击创建索引进入。   您可以选择需要创建索引的栏目,然后点...
分类:编程语言   时间:2014-06-03 03:55:21    阅读次数:273
【搜索引擎基础知识1】搜索引擎基本架构
(一)搜索引擎的开发一般可分为下面三大部分1、数据採集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene3、视图层:也用户的交互界面,如一个站点的首页...
分类:其他好文   时间:2014-05-31 20:04:37    阅读次数:263
Lucene 工作原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived i...
分类:其他好文   时间:2014-05-31 15:14:01    阅读次数:302
Lucene TFIDF打分公式
还没读TFIDFSimilarity的代码,读了一下lucene的文档,没有特复杂,感觉还是非常严谨的。对于查询q和文档d,如果查询为纯token查询,套用向量空间模型(VSM),相似度度量使用余弦,另外再加一个coord(q,d)即d中满足q中must和should查询条件个数的度量(预计通常是m...
分类:其他好文   时间:2014-05-31 12:26:13    阅读次数:447
代码片段,Lucene的高亮显示
代码高亮显示是通过在搜索到的Term中把匹配了用户输入的关键字的周围加上一些标记来实现(比如,关键字是"中华" 查到的一个Term是 "中华人民共和国",则把这个Term修改一下 把"中华" 两个字加粗,最终结果是这样的: 中华人民共和国)下边是具体实现的代码片段: Top...
分类:其他好文   时间:2014-05-31 05:07:22    阅读次数:207
关于Tokenizer与TokenFilter的区别
TokenStream是一个能在被调用后产生语汇单元流的类,但是 TokenStream 类有两个不同的类型:Tokenizer 类和 TokenFilter 类。这两个类都是从抽象类TokenStream类继承而来。 Tokenizer 对象通过Java.io.Reader 对象读取字符...
分类:其他好文   时间:2014-05-29 15:01:26    阅读次数:551
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!