Python读取PDF文档
2017-05-19 13:38
363 查看
1 from pdfminer.converter import PDFPageAggregator 2 from pdfminer.layout import LAParams 3 from pdfminer.pdfparser import PDFParser 4 from pdfminer.pdfparser import PDFDocument 5 from pdfminer.pdfinterp import PDFResourceManager 6 from pdfminer.pdfinterp import PDFPageInterpreter 7 from pdfminer.pdfdevice import PDFDevice 8 9 # 获取文档对象 10 fp = open("banReport.pdf","rb") 11 12 # 创建一个PDF文档解释器 13 parser = PDFParser(fp) 14 15 # PDF文档的对象 16 doc = PDFDocument() 17 18 #连接解释器和文档对象 19 parser.set_document(doc) 20 doc.set_parser(parser) 21 22 # 初始化文档 23 doc.initialize('') 24 25 # 创建PDF资源管理器 26 resource = PDFResourceManager() 27 28 #参数分析器 29 laparam = LAParams() 30 31 # 创建一个聚合器 32 device = PDFPageAggregator(resource,laparams=laparam) 33 # 创建PDF页面解释器 34 interpreter = PDFPageInterpreter(resource,device=device) 35 36 # 使用文档对象得到页面的集合 37 for page in doc.get_pages(): 38 # 使用页面解释器来读取 39 interpreter.process_page(page) 40 41 # 使用聚合器来获取内容 42 layout = device.get_result() 43 44 for out in layout: 45 if hasattr(out,"get_text"): 46 print(out.get_text())
相关文章推荐
- python读取pdf文档
- python读取pdf文档-实战
- Python读取pdf文档 只读文本的情况
- python读取pdf文档-文件
- python网络爬虫文档读取-PDF文件读取
- 用python读取pdf文档
- python 读取 pdf 文档
- java读取pdf文档
- Java程序员从笨鸟到菜鸟之(一百零三)java操作office和pdf文件(一)java读取word,excel和pdf文档内容
- Java程序员从笨鸟到菜鸟之(一百零三)java操作office和pdf文件(一)java读取word,excel和pdf文档内容
- 分享一下自己写的Python 3的各种PDF文档【花了半年时间那】
- Java 使用iText读取PDF文档目录列表(zz)
- java读取pdf和MS Office文档
- IOS读取和显示PDF文档
- 002_024 Python 在Windows和Mac OS X平台上统计PDF的文档的页数
- python读取文本文档处理不可见字符
- Python 搞搞数据库 简单的SQLite操作前 之读取文档 readlines
- Android中读取PDF文档
- C#生成PDF文档,读取TXT文件内容
- PDF文档的读取,vudroid(Android)