使用pdfbox实现pdf文本提取和合并功能示例
2014-01-22 00:00
916 查看
有时我们需要对PDF文件进行一些处理,提取文本、合并等。以前我们使用A-PDF Text Extractor免费工具,为什么不自己写一个呢?
现在我们可以使用PDFBox-0.7.3这个开源类库. 下载解包后引用:
新建一个项目,代码很简单:
获得这个textString,再把它们写成磁盘文件就可以了, 像这样的方法:
其它的功能您可以自行发挥了. 这个类库目前支持:
PDF to text extraction
Merge PDF Documents
PDF Document Encryption/Decryption
Lucene Search Engine Integration
Fill in form data FDF and XFDF
Create a PDF from a text file
Create images from PDF pages
Print a PDF
现在我们可以使用PDFBox-0.7.3这个开源类库. 下载解包后引用:
PDFBox-0.7.3.dll IKVM.GNU.Classpath.dll
新建一个项目,代码很简单:
public static string ParseToTxtStringUsingPDFBox(string filename){ PDDocument doc = PDDocument.load(filename); PDFTextStripper stripper = new PDFTextStripper(); return stripper.getText(doc); }
获得这个textString,再把它们写成磁盘文件就可以了, 像这样的方法:
public static void WriteToTextFile(string str,string txtpath) { if (string.IsNullOrEmpty(txtpath)) throw new ArgumentNullException("Output file path should not be Null"); using (var txtWriter = new StreamWriter(txtpath)) { txtWriter.Write(str); txtWriter.Close(); } }
其它的功能您可以自行发挥了. 这个类库目前支持:
PDF to text extraction
Merge PDF Documents
PDF Document Encryption/Decryption
Lucene Search Engine Integration
Fill in form data FDF and XFDF
Create a PDF from a text file
Create images from PDF pages
Print a PDF
相关文章推荐
- 使用pdfbox实现pdf文本提取和合并功能示例
- 提取文档中的文本内容(使用PDFBox处理PDF文档)
- Python实现使用卷积提取图片轮廓功能示例
- Python使用tkinter库实现文本显示用户输入功能示例
- Java文件操作系列[1]——PDFBox实现分页提取PDF文本
- 使用pdfBox合并pdf解决两种情况:
- Python使用matplotlib实现基础绘图功能示例
- ThinkPHP使用getlist方法实现数据搜索功能示例
- SpringMVC(27):json数据的传递处理的示例(实现功能:使用jQuery框架的ajax()方法实现用户信息查看)
- Python实现合并同一个文件夹下所有PDF文件的方法示例
- Python使用pickle模块实现序列化功能示例
- C# 实现将 PDF 转文本的功能
- 使用pdfbox提取pdf文件中的字符信息
- QQ抓图功能的提取(dll使用示例)
- JS实现选定指定HTML元素对象中指定文本内容功能示例
- 使用【数据库收缩功能】实现多个数据文件的合并
- 关于DevExpress.XtraTreeList.TreeList控件的使用——给TreeList添加RepositoryItem以实现文本编辑功能
- PHP简单实现多维数组合并与排序功能示例
- Laravel使用PHPQRCODE实现生成带有LOGO的二维码图片功能示例
- java使用pdfbox操作pdf文件示例