码迷,mamicode.com
首页 >  
搜索关键字:tika    ( 35个结果
Tika基本使用
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。 Tika提供了对如下文件格式的支持: PDF - 通过Pdfbox MS-* - 通过POI HTML - 使用nekohtml将不规范的html整...
分类:其他好文   时间:2015-03-30 18:54:22    阅读次数:1111
Lucene实战(第2版)》
《Lucene实战(第2版)》基于Apache的Lucene 3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用Tika提取文本、Lucene的高级扩展、使用其他编程语言访问...
分类:Web程序   时间:2015-03-17 17:23:40    阅读次数:230
Toxy新手指南
Toxy是.NET平台上的文本和数据抽取框架,类似与Java平台上的Apache Tika
分类:其他好文   时间:2015-03-17 14:08:05    阅读次数:238
Toxy新手教程
Toxy是.NET平台上的文本和数据抽取框架,类似与Java平台上的Apache Tika
分类:其他好文   时间:2015-03-14 07:24:14    阅读次数:248
1.6 Indexing and Basic Data Operations--目录
1.6.1 什么是 Indexing 1.6.2 Uploading Data with Index Handlers 1.6.3 Uploading Data with Solr Cell using Apache Tika 1.6.4 Uploading Structured Data...
分类:其他好文   时间:2015-03-09 14:22:26    阅读次数:119
1.6.7 Detecting Languages During Indexing
1. Detecting Languages During Indexing 在索引的时候,solr可以使用langidUpdateRequestProcessor来识别语言,然后映射文本到特定语言的字段.solr支持这个功能的两个实现:Tika的语言解析功能:http://tika.apache....
分类:其他好文   时间:2015-03-09 12:16:54    阅读次数:140
1.6.3 Uploading Data with Solr Cell using Apache Tika
1. Uploading Data with Solr Cell using Apache Tika solr使用Apache Tika工程的代码提供了一个框架,用于合并所有不同格式的文件解析器为solr自己的解析器,如Apache PDFBox,Apache POI.通过这个框架,solr使用E....
分类:Web程序   时间:2015-03-03 13:25:03    阅读次数:338
1.6.2 Uploading Data with Index Handlers
Uploading Data with Index Handlers 索引处理器就是Request Handlers,用于添加,更新,删除索引中的文档.另外,使用Tika抽取富文档数据,使用Data Import Handler抽取结构化数据.solr自然也就支持XML, CSV 和 JSON格式....
分类:其他好文   时间:2015-03-02 10:52:17    阅读次数:168
代码片段,使用TIKA来解析PDF,WORD和EMAIL
使用TIKA来解析PDF,WORD,EMAIL的代码片段
分类:其他好文   时间:2014-12-08 02:01:23    阅读次数:180
使用Tika、Luke工具解析多种类型(word、pdf、txt 等)索引文件
Tika 是2008年才产生的apache的一个项目,主要用于打开各种不同类型的文档,获取其文本信息。可以解析多种类型(word、pdf、txt 、html等)文件! 甚至可以通过解析url,获取其网页信息。最后把其文本信息提起出来。这方面Tika有点像Jsoup。。一般情况下,直接对word、pdf等文件直接创建索引是不对的,用luke工具查看之后,出现一大推乱七八糟的term。这个时候就可以用Tika 去在对其创建索引之前,转化处理其文本信息。 Luke 这个工具很强大,luke是一个查询索引的工具...
分类:其他好文   时间:2014-12-02 22:43:16    阅读次数:420
35条   上一页 1 2 3 4 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!