您的位置:首页
使用Lucene对预处理后的文档进行创建索引(可执行)
2017-05-22 20:37
375 查看
时间:
2015/3/18
杨鑫newlife
对于文档的预处理后。就要開始使用Lucene来处理相关的内容了。
这里使用的Lucene的过程例如以下:
首先要为处理对象机那里索引
二是构建查询对象
三是在索引中查找
这里的代码是处理创建索引的部分
代码:
package ch2.lucenedemo.process;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import jeasy.analysis.MMAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.index.IndexWriter;
public class IndexProcessor {
//成员变量。存储创建的索引文件存放的位置
private String INDEX_STORE_PATH = "E:\\Lucene项目\\索引文件夹";
//创建索引
public void createIndex(String inputDir){
try
{
System.out.println("程序開始执行。正在创建索引->->->->->");
IndexWriter writer = new IndexWriter(INDEX_STORE_PATH, new MMAnalyzer(), true);
File filesDir = new File(inputDir);
//取得全部须要建立索引的文件数组
File[] files = filesDir.listFiles();
//遍历数组
for(int i = 0; i < files.length; i++){
//获取文件名称
String fileName = files[i].getName();
//推断文件是否为txt类型的文件
if(fileName.substring(fileName.lastIndexOf(".")).equals(".txt")){
//创建一个新的Document
Document doc = new Document();
System.out.println("正在为文件名称创建索引->->->->");
//为文件名称创建一个Field
Field field = new Field("filename", files[i].getName(), Field.Store.YES, Field.Index.TOKENIZED);
doc.add(field);
System.out.println("正在为文件内容创建索引->->->->");
//为文件内容创建一个Field
field = new Field("content", loadFileToString(files[i]), Field.Store.NO, Field.Index.TOKENIZED);
doc.add(field);
//把Document增加到IndexWriter
writer.addDocument(doc);
}
}
writer.close();
System.out.println("程序创建结束->->->->");
}catch(Exception e){
e.printStackTrace();
}
}
/*
* 从文件里把内容读取出来,全部的内容就放在一个String中返回
* */
public String loadFileToString(File file){
try{
BufferedReader br = new BufferedReader(new FileReader(file));
StringBuffer sb = new StringBuffer();
String line= br.readLine();
while(line != null){
sb.append(line);
line = br.readLine();
}
br.close();
return sb.toString();
}catch(IOException e){
e.printStackTrace();
return null;
}
}
public static void main(String[] args){
IndexProcessor ip = new IndexProcessor();
ip.createIndex("E:\\Lucene项目\\目标文件");
}
}
2015/3/18
杨鑫newlife
对于文档的预处理后。就要開始使用Lucene来处理相关的内容了。
这里使用的Lucene的过程例如以下:
首先要为处理对象机那里索引
二是构建查询对象
三是在索引中查找
这里的代码是处理创建索引的部分
代码:
package ch2.lucenedemo.process;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import jeasy.analysis.MMAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.index.IndexWriter;
public class IndexProcessor {
//成员变量。存储创建的索引文件存放的位置
private String INDEX_STORE_PATH = "E:\\Lucene项目\\索引文件夹";
//创建索引
public void createIndex(String inputDir){
try
{
System.out.println("程序開始执行。正在创建索引->->->->->");
IndexWriter writer = new IndexWriter(INDEX_STORE_PATH, new MMAnalyzer(), true);
File filesDir = new File(inputDir);
//取得全部须要建立索引的文件数组
File[] files = filesDir.listFiles();
//遍历数组
for(int i = 0; i < files.length; i++){
//获取文件名称
String fileName = files[i].getName();
//推断文件是否为txt类型的文件
if(fileName.substring(fileName.lastIndexOf(".")).equals(".txt")){
//创建一个新的Document
Document doc = new Document();
System.out.println("正在为文件名称创建索引->->->->");
//为文件名称创建一个Field
Field field = new Field("filename", files[i].getName(), Field.Store.YES, Field.Index.TOKENIZED);
doc.add(field);
System.out.println("正在为文件内容创建索引->->->->");
//为文件内容创建一个Field
field = new Field("content", loadFileToString(files[i]), Field.Store.NO, Field.Index.TOKENIZED);
doc.add(field);
//把Document增加到IndexWriter
writer.addDocument(doc);
}
}
writer.close();
System.out.println("程序创建结束->->->->");
}catch(Exception e){
e.printStackTrace();
}
}
/*
* 从文件里把内容读取出来,全部的内容就放在一个String中返回
* */
public String loadFileToString(File file){
try{
BufferedReader br = new BufferedReader(new FileReader(file));
StringBuffer sb = new StringBuffer();
String line= br.readLine();
while(line != null){
sb.append(line);
line = br.readLine();
}
br.close();
return sb.toString();
}catch(IOException e){
e.printStackTrace();
return null;
}
}
public static void main(String[] args){
IndexProcessor ip = new IndexProcessor();
ip.createIndex("E:\\Lucene项目\\目标文件");
}
}
相关文章推荐
- 使用Lucene对预处理后的文档进行创建索引(可运行)
- 使用lucene将索引结果进行高亮显示
- 初识 Lucene(对目录文档进行检索,各种类的含义及使用)
- 使用org.apache.lucene创建和查询索引核心代码详解
- PLSQL_Oracle分区表和相应的分区索引管理和使用(案例)(创建交易表等大表时进行分区提高效率)
- ElasticSearch中head插件安装及创建索引,插入文档,使用
- 【Lucene4.8教程之一】使用Lucene4.8进行索引及搜索的基本操作
- MFC 线程创建在使用构造函数进行初始化线程的时候,创建线程实例了,但是线程并没有执行的问题
- 【Lucene4.8教程之一】使用Lucene4.8进行索引及搜索的基本操作
- 【Lucene4.8教程之一】使用Lucene4.8进行索引及搜索的基本操作
- 使用Lucene进行全文检索(一)---处理索引
- Lucene学习之一:使用lucene为数据库表创建索引,并按关键字查询
- 使用lucene3.6创建索引和实现简单搜索
- 使用Lucene.Net 3.0.3进行文件索引和检索
- lucene-创建文档索引处理框架
- lucene使用IKAnalyzer3.2.5中文分词器进行索引的一个小例子
- 使用Lucene对建立的索引进行搜索
- c#使用Lucene.net创建索引,实现搜索的代码示例
- 【Lucene4.8教程之一】使用Lucene4.8进行索引及搜索的基本操作
- java分组批量执行,发短信、创建Lucene索引(应用场景)