lucent检索技术之创建索引:使用POI读取txt/word/excel/ppt/pdf内容
2014-09-30 17:00
961 查看
在使用lucent检索文档时,必须先为各文档创建索引。索引的创建即读出文档信息(如文档名称、上传时间、文档内容等),然后再经过分词建索引写入到索引文件里。这里主要是总结下读取各类文档内容这一步。
一、之前做过一个小工具也涉及到读取word和excel内容,采用的是com组件的方式来读取。即导入COM库,引入命名空间(using Microsoft.Office.Interop.Word;using Microsoft.Office.Interop.Excel;),然后读代码如下:
读取word
View Code
但是不知什么原因采用这个方法读取word2003会报错,暂时先用着上面第二点中读取word2003的方法吧。
一、之前做过一个小工具也涉及到读取word和excel内容,采用的是com组件的方式来读取。即导入COM库,引入命名空间(using Microsoft.Office.Interop.Word;using Microsoft.Office.Interop.Excel;),然后读代码如下:
读取word
/// <summary> /// 读取word2007,excel2003/2007,ppt2003/2007 /// </summary> /// <param name="filepath"></param> /// <returns></returns> public string ReadOfficeText(string filepath) { //docx 、pptx 、xlsx、 ppt 、xls FileInputStream fs = new FileInputStream(filepath); POITextExtractor extractor = ExtractorFactory.createExtractor(fs); string text = extractor.getText(); return text; }
View Code
但是不知什么原因采用这个方法读取word2003会报错,暂时先用着上面第二点中读取word2003的方法吧。
相关文章推荐
- java实现爬虫技术,读取txt,word,excel,ppt,pdf,html等格式的文件
- java实现爬虫技术,读取txt,word,excel,ppt,pdf,html等格式的文件
- java使用poi读取ppt文件和poi读取excel、word示例
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JAVA提取Word,Excel,PPT,PDF,TXT等文档文字内容
- 使用solr创建 附件[word pdf txt等文件索引]
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法
- JAVA提取Word,Excel,PPT,PDF,TXT等文档文字内容
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- java使用poi读取ppt文件和poi读取excel、word示例
- java使用poi读取ppt文件和poi读取excel、word示例
- PDF文件转化成word,ppt,excel,图片(png,jpg...),tiff,rtf,txt,html,PDF组合,PDF编辑,PDF创建
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例 .
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- java通过url在线预览Word、excel、ppt、pdf、txt文档中的内容【只获得其中的文字】