码迷,mamicode.com
首页 >  
搜索关键字:pdfbox    ( 62个结果
忙活了一天,PDF转epub基本成功
前人肯定做过,从github上找了几个类似的项目,java的,python的,C++和ruby的都有。我扒了一个Java的下来,几乎很难不费任何吹灰之力的跑起来,总得看看改改,一个个坑趟过去。大致明白过程后,还是决定自己写一个,方便以后不断修改完善。于是采用epublib和PDFbox,200行代码... ...
分类:其他好文   时间:2016-05-11 23:32:15    阅读次数:208
在Java代码中使用pdfBox将PDF转换为图片
生成图片 // 生成图片 PDDocument pd = PDDocument.load(new File(filePath)); PDFRenderer pdfRenderer = new PDFRenderer(pd); BufferedImage combined = null; for (i
分类:编程语言   时间:2016-01-28 21:01:19    阅读次数:197
apache开源项目--TIKA
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI,Pdfbox并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。在当前的0.2-SNAPSHOT版本中, Tika提供了对如下...
分类:Web程序   时间:2016-01-05 18:41:24    阅读次数:330
PDFBox的使用——分页提取PDF文本
需求:用java分页提取PDF文本。PDFBox是一个很好的可以满足上述需求的开源工具。1.PDF文档结构要解析PDF文本,我们首先要了解PDF文件的结构。关于PDF文档,最重要的几点:一,PDF文档内容比较复杂,比如有纯文本(可以提取出其中的文字,可以用PDF软件中的“复制”功能)、图片(无法使用...
分类:其他好文   时间:2015-12-25 10:09:05    阅读次数:430
[转].NET下读取PDF文本
本文转自:http://blog.csdn.net/wangqiuyun/article/details/8548779在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSharp。先说PDFBox,这个类库据说功能很强大,本人在这只是简单介绍一下:1、下载PDFBox下载地址...
分类:Web程序   时间:2015-12-15 15:57:02    阅读次数:206
C# PDFBox 解析PDF文件
下载PDFBox-0.7.3.zipPDFBox-0.7.3.dlllucene-demos-2.0.0.dlllucene-core-2.0.0.dllbcmail-jdk14-132.dllbcprov-jdk14-132.dllFontBox-0.1.0-dev.dllICSharpCode....
分类:Windows程序   时间:2015-11-11 11:25:24    阅读次数:745
PDF签名应用研究小结
一、客户端对PDF文件数字签名的开源软件 (1) 使用itext和itextsharp,服务端采用java或asp.net,客户端才用itextsharp。 (2) 使用PDFBOX,只有java的实现。 二、降低PDF文件签名的网络传输 采用可分离的方式来处理,该思路来自两年前医疗行业的...
分类:其他好文   时间:2015-10-17 20:35:43    阅读次数:204
C#读取PDF文档内容
一、下载PDFBox 访问网址http://sourceforge.net/projects/pdfbox/(这个绝对是个好网站)二、引用动态链接库解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有: IKVM.GNU.Classpath.dllPDFBox-0.7....
分类:Windows程序   时间:2015-10-08 10:35:45    阅读次数:249
如何用pdfbox-app-1.8.10.jar批处理将pdf文档转换成text文档
1.首先下载pdfbox-app-1.8.10.jar(下载地址:http://pdfbox.apache.org/download.html)2.将pdfbox-app-1.8.10.jar加载到eclipse工程中1.新建java工程:Flie->New->Java Project,如PdfTo...
分类:移动开发   时间:2015-08-10 23:58:16    阅读次数:218
关于XSuperMES项目使用的PDF框架
我在以前的项目中使用的是pdfbox,在读取中文文档时可以读出大部分的文字,但是在数字、分页等地方还是不可避免的出现乱码。于是我在网上搜索,看有没有什么解决方法,看到有说法: “PDFBox看起来非常的方便,它的API功能强大。甚至能和Lucene进行无缝的结合。但是它有一个致命的弱点,就是它不支持中文。要提取中文的文本,可以采用另一个非常出色的工具xpdf。” 于是我决定自己比较一下...
分类:其他好文   时间:2015-07-10 13:31:29    阅读次数:96
62条   上一页 1 2 3 4 5 6 7 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!