您的位置:首页 > 产品设计 > UI/UE

提取Word里面的内容

2008-04-30 22:25 148 查看
Word里面的内容比较简单:

除了支持对Excel文件的读取外,POI还提供对Word的DOC格式文件的读取。但在它的发

行版本中没有发布对Word支持的模块,需要另外下载一个POI的扩展的Jar包。用户可以

http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载,本书采用的是

tm-extractors-0.4_zip。

下载后,把该包加入工程的Build Path中,然后在ch7.poi包下新建一个类WordReader,该

类提供一个静态方法readDoc,读取一个DOC文件并返回文本。函数内容很简单,就是调

用WordExtractor的API来提取DOC的内容到字符串,该函数的代码如下。

public static String readDoc(String doc) throws Exception { 

 // 创建输入流读取DOC文件 
 FileInputStream in = new FileInputStream(new File(doc)); 

 WordExtractor extractor = null; 

 String text = null; 

 // 创建WordExtractor 
 extractor = new WordExtractor(); 

 // 对DOC文件进行提取 
 text = extractor.extractText(in); 

 return text; 



创建main函数

 

public static void main(String[] args) { 

  try{ 

     String text = WordReader.readDoc("c:/test.doc"); 

     System.out.println(text); 

  }catch(Exception e){ 

   e.printStackTrace(); 

  } 

 } 

总结:对Word的提取,主要是利用WordExtractor的对象进行对Doc文档的字符输入流进行的提取,

注意:本程序也要poi的包!!!

最后忘了说:有时这些也是必须的哦

 

import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFCell;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息