C# 实现将 PDF 转文本的功能
2014-03-08 12:05
330 查看
更新
2014年2月27日: 这篇文章最初只描述使用 PDFBox 来解析PDF文件。现在它已经被扩展到包括使用 IFilter 和 iTextSharp 的例程了。这篇文章和对应的Visual Studio项目已经更新到目前最新的 PDFBox 版本(1.8.4)。可以从http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下载包含所有依赖内容的完整项目(要消除依赖关系有点棘手)。
如何解析 PDF 文件
在.NET中从PDF文件里提取文本的几种主要方法有:Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 实现;
iTextSharp;
PDFBox。
不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。
Adobe PDF IFilter
为了使用 IFilter 接口来解析 PDF 文件,你需要:Windows 2000 或者后续版本
Adobe Acrobat 或 Reader 7.0.5+ (或单独的 Adobe PDF IFilter [adobe.com])
IFilter COM 封装类 [dotlucene.net]
样例代码:
使用了不可靠的 COM 互操作来处理 IFilter 接口 (并且组合 IFilter COM、 Adobe PDF IFilter 特别麻烦)。
需要在目标系统上单独安装 Adobe IFilter。如果你需要对其它人发布可索引的解决方案,会很痛苦。
iTextSharp
iTextSharp(http://sourceforge.net/projects/itextsharp/) 是一个 Java 的PDF 操作库iText(http://itextpdf.com/) 的.NET输出。它主要着眼于编辑PDF而不是阅读,但它当然也支持从PDF中提取文本(尽管有点大材小用)。例程:
缺点:
需要许可证(如果你不喜欢 AGPL许可证 的话)
PDFBox
PDFBox是另一个Java PDF类库。它同时也可以与原来的Java Lucene一同使用(参见LucenePDFDocument)。幸运的是,PDFBox有一个使用IKVM.NET开发的.NET版本 (只需访问PDFBox下载页)。
在.NET中使用PDFBox需要引用:
IKVM.OpenJDK.Core.dll
IKVM.OpenJDK.SwingAWT.dll
pdfbox-1.8.4.dll
并将下列文件复制到bin文件夹下:
commons-logging.dll
fontbox-1.8.4.dll
IKVM.OpenJDK.Util.dll
IKVM.Runtime.dll
使用PDFBox解析PDF十分简单:
IKVM.OpenJDK.Core.dll (4 MB)
IKVM.OpenJDK.SwingAWT.dll (6 MB)
pdfbox-1.8.4.dll (4 MB)
commons-logging.dll (82 kB)
fontbox-1.8.4.dll (180 kB)
IKVM.OpenJDK.Util.dll (2 MB)
IKVM.Runtime.dll (1 MB)
速度还可以:解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。
感谢bobrien100提供的改进建议。
缺点:
IKVM.NET依赖 (18 MB)
速度(尤其是IKVM.NET的启动时间)
相关信息
在SquarePDF.NET上可以看到本文(和后续更新)。原文地址:http://www.codeproject.com/Articles/12445/Converting-PDF-to-Text-in-C
相关文章推荐
- C# 实现将 PDF 转文本的功能
- C# 实现将 PDF 转文本的功能
- C# 实现将 PDF 转文本的功能
- C# 实现将PDF转文本的功能
- 【C#功能实现】c#程序为PDF文件填写表单内容
- 【c#功能实现】PDF与html的比较【很多例子】
- 使用pdfbox实现pdf文本提取和合并功能示例
- c#中实现朗读文本功能
- C#_读取文本------ 保存文本----功能的实现
- C# 实现从PDF文档的指定区域内提取文本
- c#实现pdf另存为功能
- 【C#功能实现】C# 输出pdf文件流在页面上显示
- C# 简单文本编辑的撤销恢复功能实现
- c#实现将pdf转文本的示例分享
- c#实现pdf的另存为功能
- 使用pdfbox实现pdf文本提取和合并功能示例
- 流以及流的缓冲区实现文本的复制的功能
- C#调用微软在线翻译API实现简单的翻译功能
- 用C#实现视频录像回放的时间播放条功能
- C#实现的简单整数四则运算计算器功能示例