码迷,mamicode.com
首页 > 其他好文 > 详细

Luncene介绍

时间:2018-04-02 13:43:51      阅读:165      评论:0      收藏:0      [点我收藏+]

标签:微软   row   github   代码   AC   文件名   tps   解决   post   

1.Luncene介绍

案例:
实现一个文件的搜索功能,通过关键字搜索文件,凡是文件名或文件内容包括关键字文件都需要找出来。还可以根据中文词语进行查询,并且需要支持多个条件查询。
Lucene可以解决

数据分类
  1.结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据
  2.非机构化数据:指不定长或无固定格式的数据,如邮件,word 文档等磁盘上的文件

非结构化数据方法
  1.顺序扫描法
    因为是顺序扫描所以相当慢不建议使用
  2.全文检索
    非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目地。这部分从非结构化数据中提取出来的然后重新组织的信息,我们称之索引这种先建立索引,再对索引进行搜索的过程就叫全文检索创建索引的过程非常耗时,但是索引一旦创建就可以多次使用,全文检索主要处理的是查询,所以耗时间创建索引是值得的。

如何实现全文检索
  可以使用Lucene实现全文检索,它是 apache下的一个开源代码的全文检索引擎工具包,提供了完整的查询引擎和搜索引擎,部分文本分析引擎。

使用应用场景
  对于数据量大、数据结构不固定的数据可采用全文搜索方式搜索,百度、Google、论坛站内搜索、电商网站站内

luncene是基础 Solr是它的框架 变更的速度很快使用率高

技术分享图片

  左边索引过程,对搜索的原始内容进行索引创建一个索引库,索引过程包括:确定原始内容要搜索的内容->采集文档->创建文档->分析文档->搜索文档
  右边搜索过程,从索引库中搜索内容的过程包括:用户通过搜索界面->创建查询->执行搜索,从索引库搜索->渲染搜索结果

Luncene介绍

标签:微软   row   github   代码   AC   文件名   tps   解决   post   

原文地址:https://www.cnblogs.com/moster/p/8692355.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!