Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。
Tika提供了对如下文件格式的支持:
PDF - 通过Pdfbox
MS-* - 通过POI
HTML - 使用nekohtml将不规范的html整...
分类:
其他好文 时间:
2015-03-30 18:54:22
阅读次数:
1111
《Lucene实战(第2版)》基于Apache的Lucene 3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用Tika提取文本、Lucene的高级扩展、使用其他编程语言访问...
分类:
Web程序 时间:
2015-03-17 17:23:40
阅读次数:
230
Toxy是.NET平台上的文本和数据抽取框架,类似与Java平台上的Apache Tika
分类:
其他好文 时间:
2015-03-17 14:08:05
阅读次数:
238
Toxy是.NET平台上的文本和数据抽取框架,类似与Java平台上的Apache Tika
分类:
其他好文 时间:
2015-03-14 07:24:14
阅读次数:
248
1.6.1 什么是 Indexing 1.6.2 Uploading Data with Index Handlers 1.6.3 Uploading Data with Solr Cell using Apache Tika 1.6.4 Uploading Structured Data...
分类:
其他好文 时间:
2015-03-09 14:22:26
阅读次数:
119
1. Detecting Languages During Indexing 在索引的时候,solr可以使用langidUpdateRequestProcessor来识别语言,然后映射文本到特定语言的字段.solr支持这个功能的两个实现:Tika的语言解析功能:http://tika.apache....
分类:
其他好文 时间:
2015-03-09 12:16:54
阅读次数:
140
1. Uploading Data with Solr Cell using Apache Tika solr使用Apache Tika工程的代码提供了一个框架,用于合并所有不同格式的文件解析器为solr自己的解析器,如Apache PDFBox,Apache POI.通过这个框架,solr使用E....
分类:
Web程序 时间:
2015-03-03 13:25:03
阅读次数:
338
Uploading Data with Index Handlers 索引处理器就是Request Handlers,用于添加,更新,删除索引中的文档.另外,使用Tika抽取富文档数据,使用Data Import Handler抽取结构化数据.solr自然也就支持XML, CSV 和 JSON格式....
分类:
其他好文 时间:
2015-03-02 10:52:17
阅读次数:
168
使用TIKA来解析PDF,WORD,EMAIL的代码片段
分类:
其他好文 时间:
2014-12-08 02:01:23
阅读次数:
180
Tika 是2008年才产生的apache的一个项目,主要用于打开各种不同类型的文档,获取其文本信息。可以解析多种类型(word、pdf、txt 、html等)文件! 甚至可以通过解析url,获取其网页信息。最后把其文本信息提起出来。这方面Tika有点像Jsoup。。一般情况下,直接对word、pdf等文件直接创建索引是不对的,用luke工具查看之后,出现一大推乱七八糟的term。这个时候就可以用Tika 去在对其创建索引之前,转化处理其文本信息。
Luke 这个工具很强大,luke是一个查询索引的工具...
分类:
其他好文 时间:
2014-12-02 22:43:16
阅读次数:
420