.net环境下从PDF文档中抽取Text文本的一些方法汇总

时间：2015-05-29 09:53:04 阅读：147 评论：0 收藏：0 [点我收藏+]

标签：

1.PDFBox的IKVM版本：据我所知，目前只有PDFBox的IKVM版本能比较好地从PDF中提取文本，PDFBOX更多信息请访问http://www.pdbox.org，关于其应用实例，可以参考CodeProject上的：http://www.codeproject.com/csharp/pdf2text.asp;
2.使用Acrobat的SDK（这个价格可不便宜）；
3.XPDF：如果条件允许可以考虑使用XPDF的PDFToText，XPDF是用C语言编写的PDF解析库，并提供多个工具，开放源代码(如果你熟悉C和dotnet，也许你可以在dotnet环境下编译为你所用），但是基于GUN协议，如果商业应用，需要money；更多信息访问：http://www.foolabs.com/xpdf
4.Ghostscript：另外一个可以考虑的是Ghostscript，官方网址是：www.cs.wisc.edu/~ghost/，抽取Text的方法，google下ps2txt;
5.其它一些相关资源：
http://www.mj10777.de/NETFramework/Desktop/SharpZipLib/PdfToTxt/index.htm
Extract Text from PDF File：http://www.codeproject.com/Purgatory/DotNetPDF.asp?df=100&forumid=104443
Code to extract plain text from a PDF file：http://www.codeproject.com/cpp/ExtractPDFText.asp?df=100&forumid=47947

顺便说下，很多朋友询问iTextSharp中抽取文本的方法，这里说下，就目前而言，iTextSharp还不支持这个功能，也无法抽取图片，当然我通过摸索也只能抽取最简单格式的图片（jpeg），其它的还在研究怎么处理。

标签：

原文地址：http://www.cnblogs.com/ranran/p/4533348.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行