python读取pdf文档
2017-04-08 17:06
260 查看
# -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice import pdfminer.pdfinterp #获取文档对象 fp = open("naacl06-shinyama.pdf","rb") #创建一个与文档关联的解释器 parser=PDFParser(fp) #PDF文档对象 doc = PDFDocument() #链接解释器和文档对象 parser.set_document(doc) doc.set_parser(parser) #初始化文档 doc.initialize("") #创建pdf资源管理器 resource = PDFResourceManager() #参数分析器 laparam = LAParams() #创建一个聚合器 device = PDFPageAggregator(resource,laparams=laparam) #创建PDF页面解释器 interpreter=PDFPageInterpreter(device,device) #使用文档对象得到页面的集合 for page in doc.get_pages(): #使用页面解释器来读取 interpreter.process_page(page) #使用聚合器来获取内容 layout= device.get_result() for out in layout: print(out.get_text())
相关文章推荐
- python读取pdf文档-文件
- Python读取PDF文档
- Python读取pdf文档 只读文本的情况
- python读取pdf文档-实战
- python网络爬虫文档读取-PDF文件读取
- 用python读取pdf文档
- python 读取 pdf 文档
- java读取pdf文档
- Java程序员从笨鸟到菜鸟之(一百零三)java操作office和pdf文件(一)java读取word,excel和pdf文档内容
- Java程序员从笨鸟到菜鸟之(一百零三)java操作office和pdf文件(一)java读取word,excel和pdf文档内容
- 分享一下自己写的Python 3的各种PDF文档【花了半年时间那】
- Java 使用iText读取PDF文档目录列表(zz)
- java读取pdf和MS Office文档
- IOS读取和显示PDF文档
- 002_024 Python 在Windows和Mac OS X平台上统计PDF的文档的页数
- python读取文本文档处理不可见字符
- Python 搞搞数据库 简单的SQLite操作前 之读取文档 readlines
- Android中读取PDF文档
- C#生成PDF文档,读取TXT文件内容
- PDF文档的读取,vudroid(Android)