码迷,mamicode.com
首页 > 其他好文 > 详细

PDF解析记录——Pdfbox

时间:2015-02-08 19:29:04      阅读:157      评论:0      收藏:0      [点我收藏+]

标签:

此文仅作记录【嫌放电脑里碍事-_-技术分享】,内容为以前收集的一小段代码。

 

下面为pdf获取文本的简要代码片段:

        private string GetPDFText(string filename)
        {
            PDDocument pdf = PDDocument.load(filename);
            PDFTextStripper pdftext = new PDFTextStripper();
            return pdftext.getText(pdf);
        }

 

其中对于旧版本,如pdfbox0.7.3版本,对于一些pdf解析会有问题,例如提示“Unknown encoding for ‘UniGB-UC32-H’”。而将dll换成新的如pdfbox-1.8.2。就可避免此问题【此处本人是通过nuget添加的引用-Pdfbox.1.1.1】。

至于想要其他新版本,可以自己通过pdfbox官网步骤自行生成

教程地址:http://pdfbox.apache.org/building.html

 


此技术后期很可能不会继续深究(用到再说吧),仅作技术学习路上的留下的一点痕迹。技术分享

PDF解析记录——Pdfbox

标签:

原文地址:http://www.cnblogs.com/huaxia283611/p/4280302.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!