Python30行代码实现对pdf文字内容的提取
2019-03-02 21:36
901 查看
网上有各种软件处理pdf,但是这些软件在处理pdf的效果上并不是尽如人意,本人利用Python的一个库
PyPDF2实现了对pdf文字内容的提取,至于图片提取日后再说,废话不多说,直接上代码:
from PyPDF2 import PdfFileReader # 定义获取pdf内容的方法 def getPdfContent(filename): # 获取PdfFileReader对象 pdf = PdfFileReader(open(filename, "rb")) content = "" #content是输出文本 for i in range(0,pdf.getNumPages()): #遍历每一页 pageObj = pdf.getPage(i) try: extractedText = pageObj.extractText()#导出每一页的内容,如果当前页有图片的话就跳过 content += extractedText + "\n" except BaseException: pass return content.encode("ascii", "ignore") # 将获取的内容写入txt文件 with open("test.txt","w") as f: count=0 #count的作用是限制每一行的文字个数,本人设置的是十行 #将获取的文本变成字符串并用空白隔开 for item in str(getPdfContent("test.pdf")).split(" "): # 如果当前文字以句号结尾就换行 if item[-1]==".": f.write(item+"\n") count=0 else: f.write(item+" ") count +=1 # 如果写了十个字就换行 if count==10: f.write("\n") # 重置count count = 0
相关文章推荐
- 【Python小工具】Python实现批量解析PDF文件提取内容并写入到Excel中
- Python实现批量把SVG格式转成png、pdf格式的代码分享
- JAVA提取Word,Excel,PPT,PDF,TXT等文档文字内容
- JS实现的新浪微博大厅文字内容滚动效果代码
- Python 提取dict转换为xml/json/table并输出的实现代码
- python实现从pdf文件中提取文本,并自动翻译的方法
- 用正则实现提取代码内容的代码
- Python人工智能之图片识别,Python3一行代码实现图片文字识别
- Python-爬取小说文字内容(使用beautiful soup实现)
- VC6.0 实现 从PDF提取文本内容
- python将html转成PDF的实现代码(包含中文)
- python Selenium爬取内容并存储至MySQL数据库的实现代码
- 使用python提取html文件中的特定数据的实现代码
- python30行代码实现跳一跳辅助
- 四行Python代码实现将word文件转换为PDF
- Python实现提取XML内容并保存到Excel中的方法
- 使用python提取html文件中的特定数据的实现代码
- Python实现批量把SVG格式转成png、pdf格式的代码分享
- python识别图像并提取文字的实现方法
- 正则提取出HTML正文(剔除标签内容)python实现