搜索关键字：lucene nrt，搜索到2456个结果！码迷,mamicode.com！

Solr调研总结(转)

Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文分词器配置、维护索引、查询索引,高亮显示、拼写检查、搜索建议、分组统计、自动聚类、相似匹配、拼音检索等功能的使用方法。在代码文本框中...

分类：其他好文时间：2014-05-26 22:22:05 阅读次数：886

【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫

详细可参考（1）书箱：《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》（2）【搜索引擎基础知识1】搜索引擎的技术架构（3）【搜索引擎基础知识2】网络爬虫的介绍 1、...

分类：其他好文时间：2014-05-26 05:45:24 阅读次数：266

【搜索引擎基础知识3】搜索引擎相关开源项目及网站

部分内容转自：http://blog.csdn.net/hguisu/article/details/8024799 一、开源项目 1.Lucene全文检索系统 http://lucene.apache.org和 http://www.lucene.com.cn/ Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代...

分类：Web程序时间：2014-05-26 04:36:55 阅读次数：297

Lucene中Directory

MMapDirectory继承自FSDirectory,针对jre至今没解决的Mmap close不回收空间(直至full gc才回收)的bug,lucene用hack方式回收(仅对sun jam)(线上目前还是出现这个问题，是什么情况,得确认一下)。其中64位linux下chunk是1G,MMAP之后返回ByteBuffer数组，其IndexInput类是MMapIndexInput。 FSD...

分类：其他好文时间：2014-05-25 18:17:00 阅读次数：314

Lucene中string docvalues使用utf-16的优化

原来的string docvalues使用utf-8编码，加载时转码花费大量时间，我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,减少了大约十秒的时间。想进一步优化，我们使用UTF-16LE编码，解码非常简单甚至只需拷贝,如果用简单的byte[]到char[]转换，可以在节省7秒时间，而如果用unsafe可以节省...

分类：其他好文时间：2014-05-25 01:46:44 阅读次数：246

【搜索引擎基础知识1】搜索引擎基本架构

（一）搜索引擎的开发一般可分为以下三大部分 1、数据采集层：一般使用爬虫获取互联网的数据，重要的开源项目有Heritrxi 2、数据分析处理层：将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容，等待用户查询使用，重要的开源项目有Lucene 3、视图层：也用户的交互界面，如一个网站的首页其基本架构可参考下图：...

分类：其他好文时间：2014-05-24 22:20:16 阅读次数：349

当前几个主要的Lucene中文分词器的比较

1.基本介绍：paoding：Lucene中文分词“庖丁解牛” PaodingAnalysisimdict ：imdict智能词典所采用的智能中文分词程序mmseg4j：用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器ik ：采用了特有的“正向迭代最细粒度切分算法“，多子处理...

分类：其他好文时间：2014-05-24 11:47:16 阅读次数：358

中文分词器性能比较

本篇是本人在Solr的基础上，配置了中文分词器，并对其进行的性能测试总结，具体包括使用mmseg4j、IKAnalyzer、Ansj，分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。具体的Solr使用方法假设读者已有了基础，关于Solr的性能指标见前期的Solr博文。

分类：其他好文时间：2014-05-24 09:33:03 阅读次数：371

Java实现使用IK Analyzer实现中文分词

需要在项目中引入：IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例代码如下(使用IK Analyzer):[java] view plaincopypackage com.haha.test; ...

分类：编程语言时间：2014-05-22 05:58:40 阅读次数：392

初识Lucene 4.5全文搜索

近期想研究下lucene，但网络上的教程大多都是lucne3.x版本的讲解。可是lucene版本的更新速度快的惊人，目前已经到了4.8版了，只好去查阅官方文档。虽然英文不大好，但稍微对比了下发现3.x版本至4.x版本的修改非常之大。接下来我就以4.5版来操作，分享下我对luence的初步认识。..

分类：其他好文时间：2014-05-21 00:49:10 阅读次数：361

共2456条上一页 1 ... 239 240 241 242 243 ... 246 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)