提取Word里面的内容
2008-04-30 22:25
148 查看
Word里面的内容比较简单:
除了支持对Excel文件的读取外,POI还提供对Word的DOC格式文件的读取。但在它的发
行版本中没有发布对Word支持的模块,需要另外下载一个POI的扩展的Jar包。用户可以
到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载,本书采用的是
tm-extractors-0.4_zip。
下载后,把该包加入工程的Build Path中,然后在ch7.poi包下新建一个类WordReader,该
类提供一个静态方法readDoc,读取一个DOC文件并返回文本。函数内容很简单,就是调
用WordExtractor的API来提取DOC的内容到字符串,该函数的代码如下。
public static String readDoc(String doc) throws Exception {
// 创建输入流读取DOC文件
FileInputStream in = new FileInputStream(new File(doc));
WordExtractor extractor = null;
String text = null;
// 创建WordExtractor
extractor = new WordExtractor();
// 对DOC文件进行提取
text = extractor.extractText(in);
return text;
}
创建main函数
public static void main(String[] args) {
try{
String text = WordReader.readDoc("c:/test.doc");
System.out.println(text);
}catch(Exception e){
e.printStackTrace();
}
}
总结:对Word的提取,主要是利用WordExtractor的对象进行对Doc文档的字符输入流进行的提取,
注意:本程序也要poi的包!!!
最后忘了说:有时这些也是必须的哦
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFCell;
除了支持对Excel文件的读取外,POI还提供对Word的DOC格式文件的读取。但在它的发
行版本中没有发布对Word支持的模块,需要另外下载一个POI的扩展的Jar包。用户可以
到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载,本书采用的是
tm-extractors-0.4_zip。
下载后,把该包加入工程的Build Path中,然后在ch7.poi包下新建一个类WordReader,该
类提供一个静态方法readDoc,读取一个DOC文件并返回文本。函数内容很简单,就是调
用WordExtractor的API来提取DOC的内容到字符串,该函数的代码如下。
public static String readDoc(String doc) throws Exception {
// 创建输入流读取DOC文件
FileInputStream in = new FileInputStream(new File(doc));
WordExtractor extractor = null;
String text = null;
// 创建WordExtractor
extractor = new WordExtractor();
// 对DOC文件进行提取
text = extractor.extractText(in);
return text;
}
创建main函数
public static void main(String[] args) {
try{
String text = WordReader.readDoc("c:/test.doc");
System.out.println(text);
}catch(Exception e){
e.printStackTrace();
}
}
总结:对Word的提取,主要是利用WordExtractor的对象进行对Doc文档的字符输入流进行的提取,
注意:本程序也要poi的包!!!
最后忘了说:有时这些也是必须的哦
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFCell;
相关文章推荐
- 能够按页号提取word文档文本内容的小程序,由C#实现
- solr7创建提取pdf,word内容创建索引
- JAVA提取Word,Excel,PPT,PDF,TXT等文档文字内容
- 提取Word中指定内容
- 利用.net替换Word的内容(从数据库中取数据来替换word里面的书签)
- 如何将word的内容提取出来转成txt
- 正则那点事之如何提取字符串中方括号里面的内容
- BeautifulSoup 提取某个tag标签里面的内容
- 利用POI提取Word(.docx)文件的批注内容
- 使用struts2的标签,将setAttribute里面的内容直接在页面提取
- 后台监视WORD文档的新增,提取需要内容到XML文件
- c#读取word内容,c#提取word内容
- 提取excel,word,ppt里面的flash
- 提取网页内容存储为word的方法
- JAVA提取Word,Excel,PPT,PDF,TXT等文档文字内容
- 提取word文档内容
- Word,Excel,pdf,txt等文件上传并提取内容
- 定义好word模板之后,使用java和jacob代码替换里面的指定的内容生成word
- 能够按页号提取word文档文本内容的小程序,由C#实现
- DEDE如何提取文章内容里面的第一张图片地址