利用百度AI OCR图片识别,Java实现PDF中的图片转换成文字
2019-07-22 15:17
1766 查看
序言:我们在读一些PDF版书籍的时候,如果PDF中不是图片,做起读书笔记的还好;如果PDF中的是图片的话,根本无法编辑,做起笔记来,还是很痛苦的。我是遇到过了。我们搞技术的,当然得自己学着解决现在的痛点。
一. 现状
为了不重复造轮子,当然得看看现在市面上是否有已经实现过的,如果有,那自然是拿来即用。
首先,说说一些在线版的PDF图片转文字,对文件大小有限制为2M(似乎有很多的文件处理都是限制在这个数),超过了便要收费了。
第二,那就是WPS的PDF图片转文字了。别说大小限制了,直接是收费。
二. 方案实现
2.1 百度AI平台 获取AppID, API Key, Secret Key
该平台限制调用次数, 作为个人开发者来说,基本上是够用了。
Java SDK文档使用说明: https://ai.baidu.com/docs#/OCR-Java-SDK/top
不清楚的,可以去看文档。
2.2 代码实现
逻辑思路: 读取PDF文件,然后读取PDF中包含的图片,将图片传给百度AI平台去进行识别,返回结果解析。
第一步:新建一个Demo的Maven工程
省略....(相信大家都会哈)🙈🙉
第二步:引入POM
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.example</groupId> <artifactId>demo</artifactId> <version>0.0.1-SNAPSHOT</version> <name>demo</name> <description> Demo project for pdf图片转换文字 喜欢的微信关注公众号:Java技术干货 </description> <properties> <java.version>1.8</java.version> </properties> <dependencies> <dependency><!--百度AI SDK--> <groupId>com.baidu.aip</groupId> <artifactId>java-sdk</artifactId> <version>4.8.0</version> </dependency> <dependency><!--PDF操作工具包--> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox-app</artifactId> <version>2.0.16</version> </dependency> </dependencies> </project>
第三步:新建一个带有main方法的类
package com.example.demo; import com.baidu.aip.ocr.AipOcr; import org.apache.pdfbox.cos.COSName; import org.apache.pdfbox.pdmodel.*; import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject; import org.apache.pdfbox.text.PDFTextStripper; import org.json.JSONObject; import javax.imageio.ImageIO; import java.awt.image.BufferedImage; import java.io.*; import java.nio.ByteBuffer; import java.text.SimpleDateFormat; import java.util.*; import java.util.concurrent.atomic.AtomicInteger; public class DemoApplication { //设置APPID/AK/SK public static final String APP_ID = "你的APP_ID"; public static final String API_KEY = "你的API_KEY"; public static final String SECRET_KEY = "你的SECRET_KEY "; public static final String DATE_FORMAT = "yyyy-MM-dd HH:mm:ss"; /** * 解析pdf文档信息 * * @param pdfPath pdf文档路径 * @throws Exception */ public static void pdfParse(String pdfPath) throws Exception { InputStream input = null; File pdfFile = new File(pdfPath); PDDocument document = null; try { input = new FileInputStream(pdfFile); //加载 pdf 文档 document = PDDocument.load(input); /** 文档属性信息 **/ PDDocumentInformation info = document.getDocumentInformation(); System.out.println("标题:" + info.getTitle()); System.out.println("主题:" + info.getSubject()); System.out.println("作者:" + info.getAuthor()); System.out.println("关键字:" + info.getKeywords()); System.out.println("应用程序:" + info.getCreator()); System.out.println("pdf 制作程序:" + info.getProducer()); System.out.println("作者:" + info.getTrapped()); System.out.println("创建时间:" + dateFormat(info.getCreationDate())); System.out.println("修改时间:" + dateFormat(info.getModificationDate())); //获取内容信息 PDFTextStripper pts = new PDFTextStripper(); String content = pts.getText(document); System.out.println("内容:" + content); /** 文档页面信息 **/ PDDocumentCatalog cata = document.getDocumentCatalog(); PDPageTree pages = cata.getPages(); System.out.println(pages.getCount()); int count = 1; // 初始化一个AipOcr AipOcr client = new AipOcr(APP_ID, API_KEY, SECRET_KEY); // 可选:设置网络连接参数 client.setConnectionTimeoutInMillis(2000); client.setSocketTimeoutInMillis(60000); for (int i = 0; i < pages.getCount(); i++) { PDPage page = (PDPage) pages.get(i); if (null != page) { PDResources res = page.getResources(); Iterable xobjects = res.getXObjectNames(); if(xobjects != null){ Iterator imageIter = xobjects.iterator(); while(imageIter.hasNext()){ COSName key = (COSName) imageIter.next(); if (res.isImageXObject(key)) { try { PDImageXObject image = (PDImageXObject) res.getXObject(key); BufferedImage bimage = image.getImage(); // 将BufferImage转换成字节数组 ByteArrayOutputStream out =new ByteArrayOutputStream(); ImageIO.write(bimage,"png",out);//png 为要保存的图片格式 byte[] barray = out.toByteArray(); out.close(); // 发送图片识别请求 JSONObject json = client.basicGeneral(barray, new HashMap<String, String>()); System.out.println(json.toString(2)); count++; System.out.println(count); } catch (Exception e) { } } } } } } } catch (Exception e) { throw e; } finally { if (null != input) input.close(); if (null != document) document.close(); } } /** * 获取格式化后的时间信息 * * @param dar 时间信息 * @return * @throws Exception */ public static String dateFormat(Calendar calendar) throws Exception { if (null == calendar) return null; String date = null; try { String pattern = DATE_FORMAT; SimpleDateFormat format = new SimpleDateFormat(pattern); date = format.format(calendar.getTime()); } catch (Exception e) { throw e; } return date == null ? "" : date; } public static void main(String[] args) throws Exception { // 读取pdf文件 String path = "C:\\Users\\fl\\Desktop\\a.pdf"; pdfParse(path); } }
第四步:识别结果对比
样例1:封面识别
识别前:
识别后:
样例2:正文识别
识别前:
识别后:
三. 总结
花一两个小时,把这一块儿的功能熟悉了一下,看了一下结果还是很满意的,虽然缺少了一些格式。但是能够把文字识别出来,就避免了手动再去敲一次。提高了读书做笔记的效率。
喜欢的朋友们可以点个关注或喜欢💝
相关文章推荐
- 用百度AI的OCR文字识别结合JAVA实现了图片的文字识别功能
- 用百度AI的OCR文字识别结合PHP实现了图片的文字识别功能
- PHP+百度AI OCR文字识别实现了图片的文字识别功能
- 利用百度OCR的node.js的接口实现文字识别的功能
- JAVA实现百度OCR文字识别功能
- java实现图片文字识别ocr
- JAVA实现百度OCR文字识别功能
- Android实现OCR文字识别并且转换为Excel、PDF格式输出
- JAVA实现百度OCR文字识别功能
- Java调用百度OCR文字识别API实现图片文字识别软件
- Python如何利用百度AI(baidu-aip)来实现文字识别
- JAVA实现百度OCR文字识别功能
- python利用百度AI实现文字识别功能
- Java平台要实现类似豆丁百度文科的文档在线阅读,总体思路是讲doc docx等文件格式利用jcom转换成pdf再用swftools转为swf。再用flexpaper组件显示swf。
- Java平台要实现类似豆丁百度文科的文档在线阅读,总体思路是讲doc docx等文件格式利用jcom转换成pdf再用swftools转为swf。再用flexpaper组件显示swf。
- wxPython利用pytesser模块实现图片文字识别
- ocr图片文字识别软件怎么将图片转换成word
- linux系统如何使用tess4j(java)进行ocr图片文字识别
- 通过百度文字识别的API来实现把图片内容写入到txt文件
- Java实现调用百度AI开放云平台(人脸识别API)