码迷,mamicode.com
首页 > 其他好文 > 详细

提取PDF文件中的文本信息

时间:2015-02-05 16:34:12      阅读:149      评论:0      收藏:0      [点我收藏+]

标签:工具   java   pdf   文本   复制   

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/43527755

      我们从网上下载的PDF文件有的是加密处理过的,无法复制其中的内容,对于这类文件的内容提取可以通过该工具实现


PDF加密

      PDF文件经过加密处理之后是无法简单的复制的,PDF文件的属性也如下图所示:

技术分享


工具的使用方法

      软件的目录结构如下图:

技术分享

lib文件夹下是程序的运行环境和代码;

pdf文件夹是需要转化的pdf文件所在的文件夹;

txt文件夹是转化后生成的txt文件所在的文件夹;

run.bat是运行文件。


      将要转换的pdf文件放到pdf文件夹下,直接双击run.bat文件即可(ps:程序是后台运行,会花费一定的时间)


测试运行结果

技术分享


如有需要,在评论中留下邮箱即可(原本想放到资源上的,无奈有大小限制,只得放弃)

源代码不大,主要是有代码运行的JDK环境,不放环境,电脑没安装JDK就无法使用,等个人域名备案成功之后,会将该程序放到自己的网站上。

无jdk的下载地址:http://download.csdn.net/detail/xiaojimanman/8426309 (下载后需要电脑安装1.7及以上的jdk)

提取PDF文件中的文本信息

标签:工具   java   pdf   文本   复制   

原文地址:http://blog.csdn.net/xiaojimanman/article/details/43527755

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!