标签:strong 文件中 ddd 信息 格式 index document Lucene 调用
Lucene索引过程分为3个主要操作步骤:将原始文档转换成文本、分析文本、将分析好的文本保存至索引中
一、提取文本和创建文档
从 pdf、word等非纯文本格式文件中,提取文本格式信息。建立起对应的,包含各个域的文档后,就可以对这些文本信息进行分析。
使用 Tika框架实现
二、分析文档
调用 IndexWriter对象的 addDocument方法,将数据传递给Lucene进行索引操作。
分析文本,将文本数据分割成语汇单元串,执行一些可选操作。
一起构成分析器。
三、向索引添加文档
标签:strong 文件中 ddd 信息 格式 index document Lucene 调用
原文地址:https://www.cnblogs.com/moonsoft/p/9356181.html