您的位置:首页 > 编程语言 > Java开发

[Java] 利用xpdf库获取pdf文件的指定范围文本内容

2008-01-03 17:50 686 查看

[Java] 利用xpdf库获取pdf文件的指定范围文本内容

编写者
日期
关键词
郑昀@ultrapower
2005-8-2
Java PDF xpdf
 

概述

读取PDF文件的某一部分文本内容,可以使用开源项目xpdf。
从Java中调用xpdf,我们参照了《Java抽取Word,PDF的四种武器》文章最后提到的办法。
总而言之,调用xpdf十分简单,下面讲一下xpdf的配置问题。

系统基础环境要求

下面是对运行xpdf软件服务的计算机的要求:
l         您可以从以下位置下载并安装 xpdf分发版本-补丁3的Win32版本:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.00pl3-win32.zip
l         还需要从以下位置下载并安装 xpdf针对中文简体的语言支持包:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-chinese-simplified.tar.gz
 
(更多下载信息参考http://www.foolabs.com/xpdf/download.html)。
 

调用示范

下载完毕,请将xpdf-3.00pl3-win32.zip解压缩到C盘xpdf目录下,我们将以c:/xpdf作为xpdf的工作路径。
然后,请将xpdf-chinese-simplified.tar/xpdf-chinese-simplified的内容解压缩到xpdf根目录下的chinese-simplified目录中。
为了启用中文简体语言包,您必须将xpdf目录下的sample-xpdfrc文件另存为xpdfrc[/b]文件。
注意:此文件为配置文件,而且名称必须是xpdfrc[/b]。如果是别的名字,即使调用pdftotext.exe时,传入”-cfg xpdfrc2”来告诉xpdf配置文件的名字,好像pdftotext.exe也并没有使用这个配置文件。所以为了减少误解,请您将配置文件直接命名为xpdfrc[/b]。
 
修改配置文件一:[/b]
[/b]并在这个xpdfrc[/b]文件最后加上这么一段话:
多加这么一段配置:
#----- begin Chinese Simplified support package (2004-jul-27)
cidToUnicode     Adobe-GB1  C:/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN     C:/PublicInstall/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap
unicodeMap EUC-CN       C:/xpdf/chinese-simplified/EUC-CN.unicodeMap
unicodeMap GBK      C:/xpdf/chinese-simplified/GBK.unicodeMap
cMapDir      Adobe-GB1  C:/xpdf/chinese-simplified/CMap
toUnicodeDir                 C:/xpdf/chinese-simplified/CMap
#displayCIDFontTT   Adobe-GB1  /usr/..../gkai00mp.ttf
#----- end Chinese Simplified support package
注意Map文件的路径一定要正确。
 
修改配置文件二:[/b]
另外,配置文件中原先没有加上一个“textPageBreaks”控制。为了避免这个分页符号,我们需要在xpdfrc[/b]文件“text output control”下面加上这么一段话:
多加这么一段配置:
# If set to "yes", text extraction will  insert  page
# breaks  (form feed characters) between pages.  This
# defaults to "yes".
textPageBreaks      no
 
设置textPageBreaks为no的意思是:在PDF文档的两页之间不加入分页符号。
之所以这样,是因为这个符号有时候会引起SAX解析XML上的困难。
 
修改配置文件三:[/b]
配置文件中原先把textEncoding注释了。这样默认的字符集是Latin1。我们必须打开它,并且就是指定textEncoding为UTF-8,而不是GB2312。

调用示范

下面的代码,演示了利用xpdf工具集中的pdftotext应用程序读取test.pdf的从第100个字符到第300个字符。给pdftotext.exe的运行参数中,“"-q"[/b]”指的是不打印转换中的错误提示;“"-cfg", "xpdfrc"[/b]”指的是采用配置文件xpdfrc。
代码示范:
String PATH_TO_XPDF="C://xpdf//pdftotext.exe";
               String filename="c://test.pdf";
                
                 int Begin = 100;
                 int End = 300;
                
                 String strResponse = "";
                
                String[] cmd = new String[]
                    { PATH_TO_XPDF,
                            "-cfg", "xpdfrc"[/b], "-q"[/b], filename, "-"};
               Process p = Runtime.getRuntime().exec(cmd);
               BufferedInputStream bis = new BufferedInputStream(p.getInputStream());
               InputStreamReader reader = new InputStreamReader(bis, "UTF-8");
 
                
                 if(Begin > 0)
                 {
                      // 跳过Begin个字符
                      reader.skip(Begin);
                 }
                  
                
                 // 本次要读取的字符数
                 int nLengthRead = End - Begin;
                 if(nLengthRead > 0)
                 {
                      // 准备好缓冲区
                     char [] buf = new char[nLengthRead];
                      // 输出到缓冲区
                     int nLengthWriteToBuffer = reader.read(buf);
                     reader.close();
                     
                      // nLengthWriteToBuffer就是当前读取到缓冲区的字符数
                      if(nLengthWriteToBuffer > 0)
                      {
                            // 只有nLengthWriteToBuffer大于0,才说明文档有内容
                            strResponse = new String(buf);
                      }
                      else
                      {
                            // 否则可能是到了文档结尾
                            strResponse = "PDF_EOF_OF_DOC";
                      }
                 }
                
               System.out.println("/t/r/n" + strResponse);
 
编写者
日期
关键词
郑昀@ultrapower
2005-8-2
Java PDF xpdf
 

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=445037
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: