您的位置:首页 > 其它

提取PDF文件中的文本信息

2015-02-05 15:00 204 查看
转载请注明出处:/article/2606882.html

我们从网上下载的PDF文件有的是加密处理过的,无法复制其中的内容,对于这类文件的内容提取可以通过该工具实现

PDF加密

PDF文件经过加密处理之后是无法简单的复制的,PDF文件的属性也如下图所示:



工具的使用方法

软件的目录结构如下图:



lib文件夹下是程序的运行环境和代码;

pdf文件夹是需要转化的pdf文件所在的文件夹;

txt文件夹是转化后生成的txt文件所在的文件夹;

run.bat是运行文件。

将要转换的pdf文件放到pdf文件夹下,直接双击run.bat文件即可(ps:程序是后台运行,会花费一定的时间)

测试运行结果



如有需要,在评论中留下邮箱即可(原本想放到资源上的,无奈有大小限制,只得放弃)

源代码不大,主要是有代码运行的JDK环境,不放环境,电脑没安装JDK就无法使用,等个人域名备案成功之后,会将该程序放到自己的网站上。

无jdk的下载地址:http://download.csdn.net/detail/xiaojimanman/8426309 (下载后需要电脑安装1.7及以上的jdk)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: