最近,需要对项目进行lucene版本升级。而原来项目时基于lucene 3.0的,很古老的一个版本的了。在老版本中中,我们主要用了几个lucene的东西: 1、查询lucene多目录索引。 2、构建RAMDirectory,把索引放到内存中,以提高检索效率。 3、构建Lucene自定义分词...
分类:
Web程序 时间:
2015-04-02 18:33:25
阅读次数:
135
在全文索引工具中,都是由这样的三部分组成
1.索引部分
2.分词部分
3.搜索部分
----------------------------------
索引创建域选项
----------------------------------
Field.Store.YES或者NO(存储域选项)
YES:表示会把这个域中的内容完全存储到文件中,方便进行还原[对于主键,标题可以是这种方式...
分类:
Web程序 时间:
2015-04-01 17:47:16
阅读次数:
162
最近一直在学Lucene3.5,感觉里面的知识真的很棒。今天就和大家一起分享一下我们自己来实现一个同义词的分词器。
一个分词器由多个Tokenizer和TokenFilter组成,这篇文章讲解的就是我们利用这两个特性实现自己的一个简单的同义词分词器,不妥之处请大家指出。
一、设计思路
什么叫同义词搜索呢?比如我们在搜 ”中国“ 这个词的时候,我们也可以搜索 ”大陆“ 这个词,后者搜索的要...
分类:
Web程序 时间:
2015-04-01 13:29:29
阅读次数:
300
词性的重要性不言而喻,尤其是对于自然语言处理来说,哪怕就是记单词,根据词性对单词进行归组也是非常有帮助的。 superword是一个Java实现的英文单词分析软件,主要研究英语单词音近形似转化规律、前缀后缀规律、...
分类:
其他好文 时间:
2015-03-30 23:17:14
阅读次数:
1390
看到HorkeyChen写的文章《[WebKit] JavaScriptCore解析--基础篇(三)从脚本代码到JIT编译的代码实现》,写的很好,深受启发。想补充一些Horkey没有写到的细节比如字节码是如何生成的等等,为此成文。
JSC对JavaScript的处理,其实与Webkit对CSS的处理许多地方是类似的,它这么几个部分:
(1)词法分析->出来词语(...
分类:
编程语言 时间:
2015-03-28 20:27:43
阅读次数:
218
Lucene编程一般分为:索引、分词、搜索
索引源代码:
package lucene的一个标准测试;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;...
分类:
Web程序 时间:
2015-03-22 10:41:28
阅读次数:
424
下面给大家介绍一下如何打造自己的coreseek分词词库。coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词词库必不可少。
i.首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库
ii.因为下载回来的词库不是文本文..
分类:
其他好文 时间:
2015-03-18 18:33:14
阅读次数:
130
PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索中文分词:a) robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robbe.html i. Robbe完整版本下载:Robbe完整版本(PHP测试程序, 开发帮助文档, W...
分类:
数据库 时间:
2015-03-18 13:55:08
阅读次数:
1039
转自:Banningshttp://blog.csdn.net/zhangao0086/article/details/6292950Analyzer(分词器)分词器能以某种规则对关键字进行分词,将分好的词放到目录中,以作为检索到的条件,在创建索引时会使用到分词器,在搜索时也将用到分词器,这两个地方...
分类:
Web程序 时间:
2015-03-17 21:31:22
阅读次数:
143
最近在研究文本挖掘,对于中文文本,首先要进行分词,那么就用到了NLPIR分词系统。总结了一下网上的资料:下面介绍一下如何用C++调用NLPIR分词系统:step 1:下载最新版的NLPIR分词系统:http://ictclas.nlpir.org/。解压后如下图:step 2:打开IDE(我用的是e...
分类:
编程语言 时间:
2015-03-16 16:21:42
阅读次数:
172