提取PDF文件中的文本信息
2015-02-05 15:00
204 查看
转载请注明出处:/article/2606882.html
我们从网上下载的PDF文件有的是加密处理过的,无法复制其中的内容,对于这类文件的内容提取可以通过该工具实现
PDF加密
PDF文件经过加密处理之后是无法简单的复制的,PDF文件的属性也如下图所示:
工具的使用方法
软件的目录结构如下图:
lib文件夹下是程序的运行环境和代码;
pdf文件夹是需要转化的pdf文件所在的文件夹;
txt文件夹是转化后生成的txt文件所在的文件夹;
run.bat是运行文件。
将要转换的pdf文件放到pdf文件夹下,直接双击run.bat文件即可(ps:程序是后台运行,会花费一定的时间)
测试运行结果
如有需要,在评论中留下邮箱即可(原本想放到资源上的,无奈有大小限制,只得放弃)
源代码不大,主要是有代码运行的JDK环境,不放环境,电脑没安装JDK就无法使用,等个人域名备案成功之后,会将该程序放到自己的网站上。
无jdk的下载地址:http://download.csdn.net/detail/xiaojimanman/8426309 (下载后需要电脑安装1.7及以上的jdk)
我们从网上下载的PDF文件有的是加密处理过的,无法复制其中的内容,对于这类文件的内容提取可以通过该工具实现
PDF加密
PDF文件经过加密处理之后是无法简单的复制的,PDF文件的属性也如下图所示:
工具的使用方法
软件的目录结构如下图:
lib文件夹下是程序的运行环境和代码;
pdf文件夹是需要转化的pdf文件所在的文件夹;
txt文件夹是转化后生成的txt文件所在的文件夹;
run.bat是运行文件。
将要转换的pdf文件放到pdf文件夹下,直接双击run.bat文件即可(ps:程序是后台运行,会花费一定的时间)
测试运行结果
如有需要,在评论中留下邮箱即可(原本想放到资源上的,无奈有大小限制,只得放弃)
源代码不大,主要是有代码运行的JDK环境,不放环境,电脑没安装JDK就无法使用,等个人域名备案成功之后,会将该程序放到自己的网站上。
无jdk的下载地址:http://download.csdn.net/detail/xiaojimanman/8426309 (下载后需要电脑安装1.7及以上的jdk)
相关文章推荐
- 使用pdfbox提取pdf文件中的字符信息
- .net 下如何将文档文件(Word, Pdf等) 中的文本提取出来
- .net 下如何将文档文件(Word, Pdf等) 中的文本提取出来
- .net 下如何将文档文件(Word, Pdf等) 中的文本提取出来(转)
- Python批量提取PDF文件中的文本
- 提取pdf文件文本:pdfparser与xpdf具体操作
- 文本文件信息导入Excel中(NPOI方式,只提取公司名称、手机号码)
- .net 下如何将文档文件(Word, Pdf等) 中的文本提取出来(转)
- Java文件操作系列[1]——PDFBox实现分页提取PDF文本
- 如何从pdf文件中提取有用信息
- 提取pdf文件文本:pdfparser与xpdf具体操作
- 从PDF文件提取文本--pdflib TET库
- .net 下如何将文档文件(Word, Pdf等) 中的文本提取出来
- 利用iTextSharp提取PDF文件中的文本内容
- 利用PDFBox提取pdf文件文本内容的分析
- Python批量提取PDF文件中文本的脚本
- 如何从doc文件里提取纯文本
- 用taglib提取mp3文件中的图片和一些其它信息的实例
- 文本文件内容按格式提取
- 利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容