[转].NET下读取PDF文本

时间：2015-12-15 15:57:02 阅读：206 评论：0 收藏：0 [点我收藏+]

标签：

本文转自：http://blog.csdn.net/wangqiuyun/article/details/8548779

在.NET下读取PDF文本用到的类库主要有两个：PDFBox和iTextSharp。

先说PDFBox，这个类库据说功能很强大，本人在这只是简单介绍一下：

1、下载PDFBox

下载地址：http://sourceforge.net/projects/pdfbox/

2、引用动态链接库

解压缩下载的PDFBox，找到其中的Bin目录，需要在项目中添加引用的dll文件有： IKVM.GNU.Classpath.dll PDFBox-0.7.3.dll FontBox-0.1.0-dev.dll IKVM.Runtime.dll 将以上4个文件引用到项目中，在文件中需要引入以下2个命名空间： using org.pdfbox.pdmodel; using org.pdfbox.util;

3、API的使用方法看代码：

[csharp] view plain copy print ?

using org.pdfbox.pdmodel;
using org.pdfbox.util;
public void pdf2txt(FileInfo file,FileInfo txtfile)
{
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText(doc);
StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
swPdfChange.Write(text);
swPdfChange.Close();
}

using org.pdfbox.pdmodel;
using org.pdfbox.util;
public void pdf2txt(FileInfo file,FileInfo txtfile)
{
        PDDocument doc = PDDocument.load(file.FullName);
        PDFTextStripper pdfStripper = new PDFTextStripper();
        string text = pdfStripper.getText(doc);
        StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
        swPdfChange.Write(text);
        swPdfChange.Close();
}

iTextSharp，其实很多时候都是用于生成PDF，但是他读取PDF的能力也不差，使用如下：

1、下载iTextSharp

下载地址：http://sourceforge.net/projects/itextsharp/

2、引用动态链接库

解压缩下载的压缩包里面的itextsharp-dll-core.zip，得到itextsharp.dll，在项目中添加引用itextsharp.dll即可在文件中需要引入以下3个命名空间： using iTextSharp; using iTextSharp.text; using iTextSharp.text.pdf;

3、API的使用方法看代码：

[csharp] view plain copy print ?

private string OnCreated(string filepath)
{
try
{
string pdffilename = filepath;
PdfReader pdfReader = new PdfReader(pdffilename);
int numberOfPages = pdfReader.NumberOfPages;
string text = string.Empty;
for (int i = 1; i <= numberOfPages; ++i)
{
byte[] bufferOfPageContent = pdfReader.GetPageContent(i);
text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);
}
pdfReader.Close();
return text;
}
catch (Exception ex)
{
StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log");
wlog.WriteLine("出错文件：" + e.FullPath + "原因：" + ex.ToString());
wlog.Flush();
wlog.Close();return null;
}
}

[转].NET下读取PDF文本

标签：

原文地址：http://www.cnblogs.com/freeliver54/p/5048532.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行