python网络爬虫文档读取-PDF文件读取
2017-10-09 15:04
393 查看
PDF(Portable Document Format)便携式文档格式可以让用户在不同的系统上用同样的方式查看图片和文本文档。无论这些文件是在哪种系统上制作的。PDF无处不在,尤其在处理商务报表和表单的时候。
不过需要注意的是,目前很多PDF解析库都是用Python 2.x版本建立的,还没有迁移到Python3.x版本。但是,因为PDF比较简单,而且是开源的文档格式,所以一些给力的Python库可以读取PDF文件,而且支持Python 3.x版本。
PDFMIner3K就是一个非常好用的库。它非常灵活,可以通过命令行使用,也可以整合到代码中。它还可以处理不同的语言编码,而且对网络文件的处理也非常方便。
首先可以使用pip进行库的安装。执行操作和结果如下图所示:
下面我们将用程序示例,实现把任意PDF读取为字符串,然后用StringIO转换成文件对象:
执行结果如下所示。
输出结果可能不是很完美,尤其是当PDF里有图片、各种各样的文本格式,或者带有表格和数据图的时候。但是,针对大多数只包含纯文本内容的PDF内容而言,其输出结果与纯文本格式基本没什么区别。
不过需要注意的是,目前很多PDF解析库都是用Python 2.x版本建立的,还没有迁移到Python3.x版本。但是,因为PDF比较简单,而且是开源的文档格式,所以一些给力的Python库可以读取PDF文件,而且支持Python 3.x版本。
PDFMIner3K就是一个非常好用的库。它非常灵活,可以通过命令行使用,也可以整合到代码中。它还可以处理不同的语言编码,而且对网络文件的处理也非常方便。
首先可以使用pip进行库的安装。执行操作和结果如下图所示:
下面我们将用程序示例,实现把任意PDF读取为字符串,然后用StringIO转换成文件对象:
from urllib.request import urlopen from pdfminer.pdfinterp import PDFResourceManager,process_pdf from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from io import StringIO from io import open def readPDF(pdfFile): rsrcmgr=PDFResourceManager() retstr=StringIO() laparams=LAParams() device=TextConverter(rsrcmgr,retstr,laparams=laparams) process_pdf(rsrcmgr,device,pdfFile) device.close() content=retstr.getvalue() retstr.close() return content pdfFile=urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf") outputString=readPDF(pdfFile) print(outputString) pdfFile.close()
执行结果如下所示。
输出结果可能不是很完美,尤其是当PDF里有图片、各种各样的文本格式,或者带有表格和数据图的时候。但是,针对大多数只包含纯文本内容的PDF内容而言,其输出结果与纯文本格式基本没什么区别。
相关文章推荐
- python读取pdf文档-文件
- Python读取pdf文档 只读文本的情况
- python按行读取文件 去掉换行符"\n" (查眼力,比较文档的不同)
- 利用Python将word 2007的文档转为pdf文件
- Java程序员从笨鸟到菜鸟之(一百零三)java操作office和pdf文件(一)java读取word,excel和pdf文档内容
- C#生成PDF文档,读取TXT文件内容
- java操作office和pdf文件java读取word,excel和pdf文档内容
- Python读取PDF文件
- python读取pdf文档-实战
- Java程序员从笨鸟到菜鸟之(一百零三)java操作office和pdf文件(一)java读取word,excel和pdf文档内容
- python 读取 pdf 文档
- [置顶] 【python PDF解析】python 读取PDF文件内容
- python实现word 2007文档转换为pdf文件
- 深入学习python解析并读取PDF文件内容的方法
- 用python读取pdf文档
- Python解析并读取PDF文件内容的方法
- C#生成PDF文档,读取TXT文件内容
- 关于Python文档读取UTF-8编码文件问题
- python任务-从文件读取参数来发送json格式的post请求,再讲请求结果保存到文档里
- java操作office和pdf文件:读取word,excel和pdf文档内容