您的位置:首页 > 其它

lucene学习教程

2015-12-07 22:08 309 查看
1Lucene的介绍

  ①Lucene是什么:

是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎  


  ②Lucene有什么用

Lucene是一个高性能、可伸缩的信息搜索(IR)库。它可以为你的应用程序添加索引和搜索能力,和对搜索词进行分析过滤


  ③Lucene怎么用

//        Lucene使用步骤
//        1创建索引
//        1.1创建索引目录
Directory directory=FSDirectory.open(new File("indexDir"));
//        1.2创建indexWriter
IndexWriterConfig conf=new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35));
IndexWriter indexWriter=new IndexWriter(directory, conf);
//        1.3创建document
Document document=new Document();
//        1.4为document指定不同的域(Field)
document.add(new Field("fileName","java.txt",Store.YES,Index.ANALYZED));
document.add(new NumericField("creatDate",Store.YES,true).setLongValue(new Date().getTime()));
document.add(new NumericField("size",Store.YES,true).setDoubleValue(10101.22));
document.add(new Field("content",FileUtils.readFileToString(new File("java.txt")),Store.NO,Index.ANALYZED));
//        1.5使用indexWriter.add(doc)方法,添加索引
indexWriter.addDocument(document);
//        1.6关闭indexWriter
indexWriter.close();
//        2搜索索引
//        2.1指定索引存放位置
Directory indexDirectory=FSDirectory.open(new File("indexDir"));
//        2.2创建indexReader
IndexReader indexReader=IndexReader.open(indexDirectory);
//        2.3创建indexSearcher
IndexSearcher indexSearcher=new IndexSearcher(indexReader);
//        2.4创建query
Query query=new TermQuery(new Term("fileName","java"));
//        2.5根据indexSearcher.seacher(query,maxDoc);获取topDocs
TopDocs topDocs = indexSearcher.search(query, 100);
//        2.6根据topDocs获取ScoreDocs[]
ScoreDoc[] scoreDocs=topDocs.scoreDocs;
//        2.7遍历ScoreDocs[]获取docId
for (ScoreDoc scoreDoc : scoreDocs) {
int docId=scoreDoc.doc;
//            2.8根据docId调用indexSearcher.doc(docId)方法获取一个document
Document doc = indexSearcher.doc(docId);
//            2.9对document进行解析,获取需要的值
System.out.println("fileName-->"+document.get("fileName")+"createDate--->"+new Date(Long.parseLong(doc.get("createDate"))));
}
//        3.0关闭indexSearcher和indexReader
indexSearcher.close();
indexReader.close();


2Lucene的组成

  ①索引

    I索引建立的主要流程

//        1指定索引的存放目录
Directory directory=FSDirectory.open(new File("paht"));//硬盘
//        //OR
Directory directory2=new RAMDirectory();//内存
//        2创建indexWriter
IndexWriterConfig conf=new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35));
IndexWriter indexWriter=new IndexWriter(directory, conf);
//        3创建文档(document)(对于数据库而言,一个条记录就是一个文档,对于文件而言,一个文件就是一个文档)
//        1.3创建document
Document document=new Document();
//        4为文档指定域(Field)(对于数据库而言,域相当于字段,对于文件而言域相当于属性)
document.add(new Field("fileName","java.txt",Store.YES,Index.ANALYZED));
document.add(new NumericField("creatDate",Store.YES,true).setLongValue(new Date().getTime()));
document.add(new NumericField("size",Store.YES,true).setDoubleValue(10101.22));
document.add(new Field("content",FileUtils.readFileToString(new File("java.txt")),Store.NO,Index.ANALYZED));
//        5添加索引
indexWriter.addDocument(document);


  II、重要类的介绍

 directory

是用来指定索引的存放位置,可以是内存也可以是硬盘,FSDirectory.open(new File("paht")),会根据本地文件系统,自动选择一种最合适的方式存储索引


  indexWriter 

是用来对索引的进行增删改的重要操作类


Document

document对象对于数据库而言,一个条记录就是一个document,对于文件而言,一个文件就是一个document


 Field

Field对象对于数据库而言,Field相当于字段(例如 name、age、、、、),对于文件而言Field相当于属性(例如文件名(name)..)
子类NumericField是用来存储数据类型的的字段的值,例如int 、long、double、,还有日期可以转换为long型后存储


 II索引的增删改
  ①增加索引

indexWriter.addDocument(document);


 ②删除索引

//删除索引
indexWriter.deleteDocuments(new Term("fileName","java"));//删除文件名等于Java的document--删除后只是放在一个临时文档里,不被检索,并没有真正删除
indexWriter.forceMergeDeletes();//强制把删除的document删除掉


  ③更新索引

//更新索引--索引的更新原理:1根据query删除掉对应document,然后再把新的document放进去
indexWriter.updateDocument(new Term("fileName","java"), document);


 III索引的权重

//①对于默认情况下,索引的排序是按照评分来排序的,评分公式是Score=Score*Boot  ,
//分数*权重,只要保证Boot的足够大,那么对应搜索的document就会排在第一位
//设置权重的办法是:
document.setBoost(1000F);


  ②分词
   I分词运行流程分析

①searchWord首先会被Tokenizer分成一个一个的语汇单元,
②然后会经过一系列的TokenFilter(分词过滤器),过滤掉没意义的分词,例如“的,啊 ”这些感叹词
③经过一系列TokenFilter后,返回一个TokenStream,就是一个分词字符流,流里存有分词个各种信息


   如下图:
   


   II分词的类介绍
    1Analyzer:分词器,是一个抽象类  

//其主要包含两个接口,用于生成TokenStream:
TokenStream tokenStream(String fieldName, Reader reader);
TokenStream reusableTokenStream(String fieldName, Reader reader) ;
//为了提高性能,在同一个线程中无需再生成新的TokenStream对象,旧的可以被重用,reusableTokenStream是获取当前线程TokenSteam。   


    2Tokenizer 

Tokenizer继承与TokenStream,是用来对searchWord的reader流进行分词,把searchWord分成一个一个的语汇单元


    3TokenFilter 

TokenFilter,过滤分词后的语汇单元,
主要方法incrementToken(),可以依次遍历语汇单元的信息


    4TokenStream

分词字符流,流里存有分词个各种信息
例如:CharTermAttribute、OffsetAttribute、PositionIncrementAttribute、TypeAttribute、、等等


   III扩展分词器

    基本原理:就是使用自定义分词器的扩展原生analyzer的构造方法,然后用analyzer对应的Tokenizer分词,然后再使用自定义的TokenFilter过滤业务逻辑数据,   

    1自定义一个类继承analyzer

public class MyAnalyzer extends Analyzer {}


    2实现tokenStream方法

public class MyAnalyzer extends Analyzer {
@Override
public TokenStream tokenStream(String arg0, Reader reader) {
return null;
}
}


    3自定义TokenFilter

package com.lucence.analyzer;

import java.io.IOException;
import java.util.HashMap;
import java.util.Map;
import java.util.Stack;

import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
/**
* 自定义分词过滤器
* 1自定义类继承TokenFilter
* 2实现指定的方法-incrementToken
* 3在incrementToken里会遍历所有被分词的词汇单元,
* 4实现自己的业务逻辑
*
*/
public class MyAnalyzerFilter extends TokenFilter {
private CharTermAttribute cta;
private PositionIncrementAttribute pia;
private State state;
private Stack<String> sameWordStack;
protected MyAnalyzerFilter(TokenStream input) {
super(input);
this.cta=input.addAttribute(CharTermAttribute.class);
this.pia=input.addAttribute(PositionIncrementAttribute.class);
sameWordStack=new Stack<String>();
}

@Override
public boolean incrementToken() throws IOException {
if(sameWordStack.size()>0){
String pop = sameWordStack.pop();
//恢复状态
restoreState(state);
cta.setEmpty();
cta.append(pop);
pia.setPositionIncrement(0);
//System.out.print("["+cta+"]"+pia.getPositionIncrement());

System.out.println(state.hashCode());
return true;
}
if (!input.incrementToken()) {
return false;
}
if(getSameWorder(cta.toString())){
//捕获当前状态
state=captureState();
}
return true;
}
/**
* 同义词处理--数据
*/
private Boolean getSameWorder(String key){
//1申明一个map存放同义词---模拟数据库
Map<String, String[]> map=new HashMap<String, String[]>();
map.put("我",new String[]{"咱","吾","俺"});
map.put("中国",new String[]{"大陆","天朝"});
String[] strings = map.get(key);
if(strings!=null&&strings.length>0){
for (int i = 0; i < strings.length; i++) {
sameWordStack.push(strings[i]);
}
return true;
}else{
return false;
}
}
}


  4使用自定义的TokenFilter返回处理后的TokenStream

public class MyAnalyzer extends Analyzer {
@Override
public TokenStream tokenStream(String arg0, Reader reader) {
return new MyAnalyzerFilter(new IKTokenizer(reader,false));
}
}


  ③搜索

   I搜索的运行流程

//        1.1指定索引存放位置
Directory indexDirectory=FSDirectory.open(new File("indexDir"));
//        1.2创建indexReader---indexReader.openIfChanged(oldReader),监听索引是否有改变,若索引有改变则重新获取indexReader
IndexReader indexReader=IndexReader.open(indexDirectory);
//        1.3创建indexSearcher
IndexSearcher indexSearcher=new IndexSearcher(indexReader);
//        1.4创建query
Query query=new TermQuery(new Term("fileName","java"));
//        1.5根据indexSearcher.seacher(query,maxDoc);获取topDocs
TopDocs topDocs = indexSearcher.search(query, 100);
//        1.6根据topDocs获取ScoreDocs[]
ScoreDoc[] scoreDocs=topDocs.scoreDocs;
//        1.7遍历ScoreDocs[]获取docId
for (ScoreDoc scoreDoc : scoreDocs) {
int docId=scoreDoc.doc;
//            1.8根据docId调用indexSearcher.doc(docId)方法获取一个document
Document doc = indexSearcher.doc(docId);
//            1.9对document进行解析,获取需要的值
System.out.println("fileName-->"+doc.get("fileName")+"createDate--->"+new Date(Long.parseLong(doc.get("createDate"))));
}
//        2.0关闭indexSearcher和indexReader
indexSearcher.close();
indexReader.close();


   IIquery类的介绍

①termQuery:精确查询 new term(field,value)
②termRangeQuery:字符串范围查询new TermRangeQuery(field, lowerTerm, upperTerm, includeLower, includeUpper)
③NumericRange:数字范围查询,NumericRangeQuery.newTRange(field, min, max, minInclusive, maxInclusive)--T代表泛型
④QueryParser:
⑤prefixQuery:前缀查询--new PrefixQuery(new term(field,prefix))
⑥wildCartQuery:通配符查询--new wildCartQuery(new term(field,value))---value已经包含通配符,例如"*bb*",查找包含bb的数据
⑦BooleanQuery:条件查询,可以连接多个多个条件
例如:


BooleanQuery booleanQuery=new BooleanQuery();
booleanQuery.add(query1,occur)
booleanQuery.add(query2,occur)
booleanQuery.add(query3,occur)


occur的值说明
must:一定,必须有,相当于数据库的and
should:可能有,,相当于数据库的or
MUST_NOT:一定没有,不存在,相当于数据库的不等于


⑧FuzzyQuery:模糊查询,


new FuzzyQuery(term, minimumSimilarity),可以 设置minimumSimilarity来设置匹配程度,越高匹配程度越高,
new FuzzyQuery(new term("name","bbcs"), minimumSimilarity)---含有bbc或者bbXs会被匹配出来


⑨phraseQuery:语义查询,对于中文,使用作用不大,


PhraseQuery phraseQuery=new PhraseQuery();
// 1设置跳跃的范围
phraseQuery.setSlop(2);
//2设置开始的单词
phraseQuery.add(new Term("content","i"));
// 3设置结束的单词
phraseQuery.add(new Term("content","you"));
//例如包含i love you的内容将会出来


   III扩展queryParse类

package com.lucence.query;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.util.Version;

/**
* 扩展queryParse类
* queryParse的查询的原理:先对查询的字符串进行分析,然后再使用对应的query去查询,
* 例如有通配符字符,就添加wildCartQuery去查询 ,如果*这些的,就添加FuzzyQuery去查询
* 也就说,如果我们想扩展queryParse的查询,那么可以自定义一个类,然后继承queryParse的,然后重构对应的getxxxquery()方法,并且在里面实现业务逻辑,则就可以实现扩展queryParse的功能
*/
//1第一步自定义类继承Lucene的queryParse
public class myQueryParse extends QueryParser {

//2选择一个重写一个构造方法
public myQueryParse(Version matchVersion, String f, Analyzer a) {
super(matchVersion, f, a);
}
//3重写对应的getXXQuery方法--并且在方法里实现业务逻辑
/**
* field--搜索域
* termStr---搜索值
*/
@Override
protected org.apache.lucene.search.Query getWildcardQuery(String field,
String termStr) throws ParseException {
if(termStr.indexOf("?")!=-1){
throw new ParseException("不能使用通配符查询");
}
return super.getWildcardQuery(field, termStr);
}
/**
* field--搜索域
* termStr---搜索值
*/
@Override
protected org.apache.lucene.search.Query getFuzzyQuery(String field,
String termStr, float minSimilarity) throws ParseException {
return super.getFuzzyQuery(field, termStr, minSimilarity);
}
}


   IV排序与分页

  排序:

//①排序:默认是根据score排序,score默认是=score(关联性)*boot(权重)
SortField sortField1=new SortField("fileName",SortField.STRING,true);//content--"字段名称", ,SortField.STRING-"字段在存放时的类型",true--是否反转
SortField sortField2=new SortField("size",SortField.INT,false);//content--"字段名称", ,SortField.BYTE-"字段在存放时的类型",true--是否反转
Sort sort=new Sort(sortField1,sortField2);
TopDocs topDocs = searcher.search(query,10,sort);


  分页:   

//1searchAfter(scoreDocAfter, query, pagezie)方法是每次返回scoreDocAfter后面的document,
int docId=(pagezie-1)*pageNumber-1;//每次查询是记录开始行
ScoreDoc scoreDocAfter=new ScoreDoc(docId,0f);
TopDocs topDocs = searcher.searchAfter(scoreDocAfter, query, pagezie);


   V搜索过滤器

  

package com.lucence.searchFilter;

import java.io.IOException;

import org.apache.lucene.document.Document;
import org.apache.lucene.index.AbstractAllTermDocs;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.index.TermDocs;
import org.apache.lucene.search.DocIdSet;
import org.apache.lucene.search.Filter;
import org.apache.lucene.util.OpenBitSet;
/**
* 自定义搜索过滤器
* 1新建一个类继承Lucene的Filter
* 2实现getDocIdSet方法
* 3根据indexReader获取到返回的document
* 4根据自己的业务逻辑处理后返回DocIdSet
* @author Jeremy
*
*/
public class MySearchFilter extends Filter {

@SuppressWarnings("unused")
@Override
public DocIdSet getDocIdSet(IndexReader indexReader)
throws IOException {
// TODO Auto-generated method stub
int maxDoc = indexReader.maxDoc();//获取返回document的数目
OpenBitSet docIdSet=new OpenBitSet(maxDoc);//默认是64位大小,但是如果超出没报异常,所以一般在indexReader里获取返回document的大小
//docIdSet是一个相当于一个列表--如下面
//status    document
// 0         docId
// 1         docId
//若status是0 ,则document将不会被显示出来,
//也就说,我们在filter把不需要的document可以过滤掉
//1填满列表---默认是空
docIdSet.set(0, maxDoc);
//2获取返回的document
//2.1直接使用indexReader来获取符合过滤条件的document
//TermDocs---存储了两个变量,一个是返回的docId数组,一个每个document出现"javass.txt"的频率次数
TermDocs termDocs =indexReader.termDocs(new Term("content","jeremy"));
while (termDocs.next()) {
System.out.println(termDocs.doc());
Document document = indexReader.document(termDocs.doc());
System.out.println("fileName"+document.get("fileName")+"---出现频率:"+termDocs.freq()+"---被过滤掉了");
docIdSet.clear(termDocs.doc());//clear()方法相当于把status设置为0
}
return docIdSet;
}

}


   VI自定义评分

  实现步骤:

  * 自定义评分
  * 默认的评分机制是 score=score*Root = 分数*索引的权重
  * 自定义评分的实现流程
  * 1新建一个类及承诺CustomScoreQuery
  * 2覆盖CustomScoreQuery(Query subQuery, ValueSourceQuery valSrcQuery)的构造方法--ValueSourceQuery:评分域查询对象
  * 3覆盖 getCustomScoreProvider(IndexReader reader)方法
  * 4新建一个类继承CustomScoreProvider
  * 5覆盖CustomScoreProvider的customScore(int doc, float subQueryScore, float valSrcScore)方法,
  * --------doc:docId,subQueryScore:原有评分,valSrcScore:我们自定义传入的评分
  * 6在customScore(int doc, float subQueryScore, float valSrcScore)方法里返回经过业务逻辑处理的的自定义评分
  * 7在getCustomScoreProvider返回自定的义的MyCustomScoreProvider对象
  * 8在查询中使用MyCustomerScroeQuery

  代码示例:

package com.lucence.scoreQuery;

import java.io.IOException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.function.CustomScoreProvider;
import org.apache.lucene.search.function.CustomScoreQuery;
import org.apache.lucene.search.function.ValueSourceQuery;
/**
* 自定义评分
* 默认的评分机制是  score=score*Root =  分数*索引的权重
* 自定义评分的实现流程
* 1新建一个类及承诺CustomScoreQuery
* 2覆盖CustomScoreQuery(Query subQuery, ValueSourceQuery valSrcQuery)的构造方法--ValueSourceQuery:评分域查询对象
* 3覆盖 getCustomScoreProvider(IndexReader reader)方法
* 4新建一个类继承CustomScoreProvider
* 5覆盖CustomScoreProvider的customScore(int doc, float subQueryScore, float valSrcScore)方法,
* --------doc:docId,subQueryScore:原有评分,valSrcScore:我们自定义传入的评分
* 6在customScore(int doc, float subQueryScore, float valSrcScore)方法里返回经过业务逻辑处理的的自定义评分
* 7在getCustomScoreProvider返回自定的义的MyCustomScoreProvider对象
* 8在查询中使用MyCustomerScroeQuery
* @author Jeremy
*
*/
// 1新建一个类及承诺CustomScoreQuery
public class MyCustomerScroeQuery extends CustomScoreQuery {
//2覆盖CustomScoreQuery(Query subQuery, ValueSourceQuery valSrcQuery)的构造方法--ValueSourceQuery:评分域查询对象
public MyCustomerScroeQuery(Query subQuery, ValueSourceQuery valSrcQuery) {
super(subQuery, valSrcQuery);
}
public MyCustomerScroeQuery(Query subQuery) {
super(subQuery);
}
@Override
//3覆盖 getCustomScoreProvider(IndexReader reader)方法
protected CustomScoreProvider getCustomScoreProvider(IndexReader reader)throws IOException {
//7在getCustomScoreProvider返回自定的义的MyCustomScoreProvider对象
return new MyCustomScoreProvider(reader);
}

}


package com.lucence.scoreQuery;

import java.io.IOException;

import org.apache.lucene.document.Document;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.search.function.CustomScoreProvider;
// 4新建一个类继承CustomScoreProvide
public class MyCustomScoreProvider extends CustomScoreProvider{

public MyCustomScoreProvider(IndexReader reader) {
super(reader);
}
@Override
/**
*  5覆盖CustomScoreProvider的customScore(int doc, float subQueryScore, float valSrcScore)方法,
*  --------doc:docId,subQueryScore:原有评分,valSrcScore:我们自定义传入的评分
*/
//subQueryScore * valSrcScore;---默认的评分是原有的评分乘以评分域的的值
public float customScore(int doc, float subQueryScore, float valSrcScore)
throws IOException {
//6在customScore方法里返回业务逻辑处理后的自定义评分
System.out.println(subQueryScore+"------"+valSrcScore);
Document document = reader.document(doc);
if(document.get("fileName").endsWith(".txt")){//文件类型为。txt的优先排序
return subQueryScore*valSrcScore*100;
}
return super.customScore(doc, subQueryScore, valSrcScore);
}
}


  使用代码示例:

public void test01(){
//3.1指定搜索目录
try {
Directory directory=FSDirectory.open(new File("C:/lucence/index"));
//3.2创建索引读取器(IndexReader)
IndexReader indexReader=IndexReader.open(directory);
//3.3根据IndexReader创建索引搜索器(indexSeacher)
IndexSearcher searcher=new IndexSearcher(indexReader);
//3.4创建查询器query----使用QueryParser的parser()方法创建--创建query
Query query=null;
QueryParser parser=new QueryParser(Version.LUCENE_35,"content",new StandardAnalyzer(Version.LUCENE_35));
query=parser.parse("spring");
//            //3.4.2c创建评分域---可以使用评分域去评分,也可以不使用----评分域的得类型必须是数据类型---
//            FieldScoreQuery fieldScoreQuery=new FieldScoreQuery("fileName",Type.BYTE);
//            //3.4.3使用MyCustomerScroeQuery来构建query
//            MyCustomerScroeQuery myCustomerScroeQuery = new MyCustomerScroeQuery(query, fieldScoreQuery);
MyCustomerScroeQuery myCustomerScroeQuery=new MyCustomerScroeQuery(query);
//3.5使用自定义的myCustomerScroeQuery进行查询过,IndexSeacher执行查询,并获取返回TopDocs---文档集合
TopDocs topDocs = searcher.search(myCustomerScroeQuery,100);
//3.6根据TopDocs(文档集合)获取scoreDocs---分数文档
ScoreDoc[] scoreDocs=topDocs.scoreDocs;
for (ScoreDoc scoreDoc : scoreDocs) {
//3.7根据ScoreDocs的doc Id在indexSeacher(索引搜索器)中获取文档对象,
Document doc = searcher.doc(scoreDoc.doc);
//3.8解析文档对象,获取对应的值
System.out.println(doc.get("fileName")+"["+doc.get("dir")+"]"+doc.getBoost());
}

//3.9关闭索引读取器
indexReader.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: