使用tm-extractors读取word文档
2012-07-15 21:22
621 查看
tm-extractors是封装了POI的word读取工具。下载jar包,导入到工程中便可以使用了。代码如下:
运行结果抛出异常,为:
为什么呢?我的原因是:.doc文档经过了wps编辑。抛出了异常。经microsoft word 2003编辑,运行结果为:
读取成功。
package com.you.read; import java.io.FileInputStream; import org.textmining.text.extraction.WordExtractor; public class WordReader { public static String readDoc(String doc) throws Exception { FileInputStream in = new FileInputStream(doc); WordExtractor extractor = null; String text = null; extractor = new WordExtractor(); text = extractor.extractText(in); return text; } public static void main(String[] args) { try { String text = WordReader.readDoc("d:/bloom.doc"); System.out.println(text); } catch (Exception e) { e.printStackTrace(); } } }
运行结果抛出异常,为:
org.textmining.text.extraction.FastSavedException: Fast-saved files are unsupported at this time at org.textmining.text.extraction.WordExtractor.extractText(WordExtractor.java:63) at com.you.read.WordReader.readDoc(WordReader.java:14) at com.you.read.WordReader.main(WordReader.java:20)
为什么呢?我的原因是:.doc文档经过了wps编辑。抛出了异常。经microsoft word 2003编辑,运行结果为:
我在马路边捡到一分钱,把它交到警察叔叔手里面,叔叔拿着钱对我把头点,我高兴的说了声,叔叔再见。
读取成功。
相关文章推荐
- 使用POI读取word文档
- 使用POI读取word文档内容
- 使用POI读取word文档内容
- 使用python批量读取word文档并整理关键信息到excel表格的实例
- 使用poi读取word文档
- 使用c#读取word文档
- java使用POI工具读取word文档并写入生成新的word文档及错误整理
- 使用tm-extractors-0.4.jar来读取word文件
- 如何使用C#在Word文档中插入图片以及读取Word文档中的图片?
- [翻译]使用c#读取word文档
- GdPicture.NET使用教程:读取PDF文档中的1D和2D码
- Web应用程序发布后,无法读取Word文档的解决方法
- 巧用Word - 在Word中使用下拉菜单控制文档的可视内容
- 使用PHP导出Word文档的原理和实例
- php创建读取 word.doc文档
- 使用powerdesigner生成表结构到word文档
- 使用freemaker模板生成word文档
- 使用Abiword/Gobby进行局域网轻量级文档协作编辑
- 【Java】使用模板生成word文档到服务器,并下载
- 使用单文档视图结构把Word嵌入到VC程序中(2)