怎么把PDF中的文字提取出来
2016-03-29 11:07
309 查看
PDF文档大家也都见过,这种格式的文档编辑起来不像word文档那样方便。在使用里面的内容的时候也比较繁琐。若要提取里面的一些文字内容,一般都会想到复制,但是一次只能复制少量的文本内容,而且复制到word或者txt文档中后排版可能会乱。那有什么高效的方法呢。
首先是我们用来打开查看pdf文件都会用到的Adobe Reader,利用这个也是可以提取里面的文字内容的。
先打开pdf文件,然后选择“文件-另存为”,将文档以文本格式存储,也就是存储为txt文本文档。
这种方法可以很快将pdf文档中的文本导入到txt文本中,但是可以看到在排版上还是有一些错误,转换后还需要对txt进行编辑。
除了Adobe Reader我们也可以通过pdf格式转换工具或者在线pdf转txt的方式将pdf文件的格式转成txt的方式来实现文字的提取。操作方法相同,我们就以pdf转换工具为例。
安装一个pdf转换工具,打开选择里面的对应选项——文件转txt。然后将pdf文件添加进来,用转换工具可以一次对多个pdf文件进行操作,而且可以转换指定的页面内容。
设置好存储位置后,点开始转换文档将自动进行转换,pdf文件中的文本类型的内容会转换为txt文本文档。转换后的文档排版不会改变,在后期编辑使用时比较方便。
首先是我们用来打开查看pdf文件都会用到的Adobe Reader,利用这个也是可以提取里面的文字内容的。
先打开pdf文件,然后选择“文件-另存为”,将文档以文本格式存储,也就是存储为txt文本文档。
这种方法可以很快将pdf文档中的文本导入到txt文本中,但是可以看到在排版上还是有一些错误,转换后还需要对txt进行编辑。
除了Adobe Reader我们也可以通过pdf格式转换工具或者在线pdf转txt的方式将pdf文件的格式转成txt的方式来实现文字的提取。操作方法相同,我们就以pdf转换工具为例。
安装一个pdf转换工具,打开选择里面的对应选项——文件转txt。然后将pdf文件添加进来,用转换工具可以一次对多个pdf文件进行操作,而且可以转换指定的页面内容。
设置好存储位置后,点开始转换文档将自动进行转换,pdf文件中的文本类型的内容会转换为txt文本文档。转换后的文档排版不会改变,在后期编辑使用时比较方便。
相关文章推荐
- Java 回顾笔记_集合框架-泛型高级应用
- 【BZOJ4034】[HAOI2015]T2【树链剖分】【线段树】
- Thinkpad E500在UEFI+GTP分区方案U盘安装Windows Server 2008 R2
- java基础知识汇总4
- linux下内存
- view.bringtofront
- javaScript——&
- iOS开发笔记--UITableViewCell的选中时的颜色及tableViewCell的selecte与deselecte
- 使用IIS实现域名跳转
- C++继承详解
- Xcode技巧:项目导入外部文件后编译运行出现Undefined symbols for architecture x86_64错误
- 283. Move Zeroes
- 页面跳转
- SVN笔记(1)
- ISO27001认证
- SQL 语句中 多表与 where 多条件 顺序与执行效率
- SQL 语句中 表与条件顺序 与效率
- 求一个十进制数的二进制形式的1的个数
- java基础知识总结3
- Android 状态栏工具类(实现沉浸式状态栏/变色状态栏)