Java 使用 pdfbox 读取 PDF文件中的文本
2016-06-21 16:11
609 查看
下面我们直接使用pdf取得PDF文件中的文本,代码如下
import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.util.PDFTextStripper; /** * 提取PDF文件中的文本 * * @author Jason.Zhang06 * */ public class PdfConverterTxt { /** * 取得PDF文本 * * @param path * @return */ public static String getContent(String path) { String result = ""; PDDocument document = null; try { InputStream is = new FileInputStream(path); document = PDDocument.load(is); PDFTextStripper stripper = new PDFTextStripper(); result = stripper.getText(document).trim(); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { if (null != document) { try { document.close(); } catch (IOException e) { e.printStackTrace(); } } } return result.toLowerCase(); } }
相关文章推荐
- java对世界各个时区(TimeZone)的通用转换处理方法(转载)
- java-注解annotation
- java-模拟tomcat服务器
- java-用HttpURLConnection发送Http请求.
- java-WEB中的监听器Lisener
- Android IPC进程间通讯机制
- Android Native 绘图方法
- Android java 与 javascript互访(相互调用)的方法例子
- 介绍一款信息管理系统的开源框架---jeecg
- 聚类算法之kmeans算法java版本
- java实现 PageRank算法
- PropertyChangeListener简单理解
- c++11 + SDL2 + ffmpeg +OpenAL + java = Android播放器
- 插入排序
- 冒泡排序
- 堆排序
- 快速排序
- 二叉查找树