码迷,mamicode.com
首页 > Web开发 > 详细

Lucene——索引过程分析Index

时间:2018-07-23 18:41:33      阅读:227      评论:0      收藏:0      [点我收藏+]

标签:strong   文件中   ddd   信息   格式   index   document   Lucene   调用   

Lucene索引过程分为3个主要操作步骤:将原始文档转换成文本、分析文本、将分析好的文本保存至索引中

一、提取文本和创建文档

从 pdf、word等非纯文本格式文件中,提取文本格式信息。建立起对应的,包含各个域的文档后,就可以对这些文本信息进行分析。

使用 Tika框架实现

二、分析文档

调用 IndexWriter对象的 addDocument方法,将数据传递给Lucene进行索引操作。

分析文本,将文本数据分割成语汇单元串,执行一些可选操作。

一起构成分析器。

三、向索引添加文档

 

Lucene——索引过程分析Index

标签:strong   文件中   ddd   信息   格式   index   document   Lucene   调用   

原文地址:https://www.cnblogs.com/moonsoft/p/9356181.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!