搜索关键字：tika，搜索到35个结果！码迷,mamicode.com！

Tika基本使用

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。 Tika提供了对如下文件格式的支持: PDF - 通过Pdfbox MS-* - 通过POI HTML - 使用nekohtml将不规范的html整...

分类：其他好文时间：2015-03-30 18:54:22 阅读次数：1111

Lucene实战(第2版)》

《Lucene实战(第2版)》基于Apache的Lucene 3.0，从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene，包括认识Lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用Tika提取文本、Lucene的高级扩展、使用其他编程语言访问...

分类：Web程序时间：2015-03-17 17:23:40 阅读次数：230

Toxy新手指南

Toxy是.NET平台上的文本和数据抽取框架，类似与Java平台上的Apache Tika

分类：其他好文时间：2015-03-17 14:08:05 阅读次数：238

Toxy新手教程

Toxy是.NET平台上的文本和数据抽取框架，类似与Java平台上的Apache Tika

分类：其他好文时间：2015-03-14 07:24:14 阅读次数：248

1.6 Indexing and Basic Data Operations--目录

1.6.1 什么是 Indexing 1.6.2 Uploading Data with Index Handlers 1.6.3 Uploading Data with Solr Cell using Apache Tika 1.6.4 Uploading Structured Data...

分类：其他好文时间：2015-03-09 14:22:26 阅读次数：119

1.6.7 Detecting Languages During Indexing

1. Detecting Languages During Indexing 在索引的时候,solr可以使用langidUpdateRequestProcessor来识别语言,然后映射文本到特定语言的字段.solr支持这个功能的两个实现:Tika的语言解析功能:http://tika.apache....

分类：其他好文时间：2015-03-09 12:16:54 阅读次数：140

1.6.3 Uploading Data with Solr Cell using Apache Tika

1. Uploading Data with Solr Cell using Apache Tika solr使用Apache Tika工程的代码提供了一个框架,用于合并所有不同格式的文件解析器为solr自己的解析器,如Apache PDFBox,Apache POI.通过这个框架,solr使用E....

分类：Web程序时间：2015-03-03 13:25:03 阅读次数：338

1.6.2 Uploading Data with Index Handlers

Uploading Data with Index Handlers 索引处理器就是Request Handlers,用于添加,更新,删除索引中的文档.另外,使用Tika抽取富文档数据,使用Data Import Handler抽取结构化数据.solr自然也就支持XML, CSV 和 JSON格式....

分类：其他好文时间：2015-03-02 10:52:17 阅读次数：168

代码片段，使用TIKA来解析PDF,WORD和EMAIL

使用TIKA来解析PDF,WORD,EMAIL的代码片段

分类：其他好文时间：2014-12-08 02:01:23 阅读次数：180

使用Tika、Luke工具解析多种类型(word、pdf、txt 等)索引文件

Tika 是2008年才产生的apache的一个项目，主要用于打开各种不同类型的文档，获取其文本信息。可以解析多种类型(word、pdf、txt 、html等)文件! 甚至可以通过解析url，获取其网页信息。最后把其文本信息提起出来。这方面Tika有点像Jsoup。。一般情况下，直接对word、pdf等文件直接创建索引是不对的，用luke工具查看之后，出现一大推乱七八糟的term。这个时候就可以用Tika 去在对其创建索引之前，转化处理其文本信息。 Luke 这个工具很强大，luke是一个查询索引的工具...

分类：其他好文时间：2014-12-02 22:43:16 阅读次数：420

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)