Lucene中创建索引的效率和删除索引的实现
2013-01-14 11:49
239 查看
越来越多的人利用开源组件 Lucene来开发自己的搜索引擎。在数据量不大的情况下,我们不会太关注创建索引的效率;但是,但数据达到一定的数量是,我们就不得不考虑如何提高创建索引的性能,以缩短索引创建的时间。
我们是用Lucene中提供的类IndexWriter来创建索引的,所以我们不妨先看一看IndexWriter类中关系到索引创建效率的几个方法。
一、SetMergeFactor(合并因子)
SetMergeFactor是控制segment合并 频率的,其决定了一个索引块中包括多少个文档,当硬盘上的索引块达到多少时,将它们合并成一个较大的索引块。当MergeFactor值较大时,生成索引 的速度较快。MergeFactor的默认值是10,建议在建立索引前将其设置的大一些。
二、SetMaxBufferedDocs(最大缓存文档数)
SetMaxBufferedDocs是控制写入一个新的segment前内存中保存的document的数目,设置较大的数目可以加快建索引速度,默认为10。
三、SetMaxMergeDocs(最大合并文档数)
SetMaxMergeDocs是控制一个segment中可以保存的最大document数目,值较小有利于追加索引的速度,默认Integer.MAX_VALUE,无需修改。
在创建大量数据的索引时,我们会发现索引过程的瓶颈在于大量的磁盘操作,如果内存足够大的话,我们应当尽量使用内存,而非硬盘。可以通过SetMaxBufferedDocs来调整,增大Lucene使用内存的次数。
如果内存足够大的话,我们也可以在索引过程中完全避免使用硬盘。Lucene支持使用文件系统和内存两种方式创建索引,我们可以先把索引写入到RAMDirectory,达到一定数量时再批量写进FSDirectory,减少磁盘操作次数。相关的代码如下:
RAMDirectory rmd = new RAMDirectory();
IndexWriter writer = new IndexWriter(rmd, new StandardAnalyzer(), true);
while (not eof) //遍历
{
Document doc = new Document();
doc.Add(…); //Add
Fields
writer.AddDocument(doc);
}
writer.SetUseCompoundFile(true);
writer.Optimize();
writer.Close();
另外,SetUseCompoundFile这个方法可以使Lucene在创建索引库时,会合并多个 Segments 文件到一个 .cfs 中。此方式有助于减少索引文件数量,对于将来搜索的效率有较大影响。
若需要从索引中删除某一个或者某一类文档,IndexReader提供了两种方法:
reader.DeleteDocument(int docNum)
reader.DeleteDocuments(Term term)
前者是根据文档的编号来删除该文档,docNum是该文档进入索引时Lucene的编号,是按照顺序编的;后者是删除满足某一个条件的多个文档。
在执行了DeleteDocument或者DeleteDocuments方法后,系统会生成一个*.del的文件,该文件中记录了删除的文档,但 并未从物理上删除这些文档。此时,这些文档是受保护的,当使用Document doc = reader.Document(i)来访问这些受保护的文档时,Lucene会报“Attempt to access a deleted document”异常。如果一次需要删除多个文档时,可以用两种方法来解决:
1. 删除一个文档后,用IndexWriter的Optimize方法来优化索引,这样我们就可以继续删除另一个文档。
2. 先扫描整个索引文件,记录下需要删除的文档在索引中的编号。然后,一次性调用DeleteDocument删除这些文档,再调用IndexWriter的Optimize方法来优化索引。
转自:http://blog.sina.com.cn/s/blog_56e2f4250100nxzy.html
我们是用Lucene中提供的类IndexWriter来创建索引的,所以我们不妨先看一看IndexWriter类中关系到索引创建效率的几个方法。
一、SetMergeFactor(合并因子)
SetMergeFactor是控制segment合并 频率的,其决定了一个索引块中包括多少个文档,当硬盘上的索引块达到多少时,将它们合并成一个较大的索引块。当MergeFactor值较大时,生成索引 的速度较快。MergeFactor的默认值是10,建议在建立索引前将其设置的大一些。
二、SetMaxBufferedDocs(最大缓存文档数)
SetMaxBufferedDocs是控制写入一个新的segment前内存中保存的document的数目,设置较大的数目可以加快建索引速度,默认为10。
三、SetMaxMergeDocs(最大合并文档数)
SetMaxMergeDocs是控制一个segment中可以保存的最大document数目,值较小有利于追加索引的速度,默认Integer.MAX_VALUE,无需修改。
在创建大量数据的索引时,我们会发现索引过程的瓶颈在于大量的磁盘操作,如果内存足够大的话,我们应当尽量使用内存,而非硬盘。可以通过SetMaxBufferedDocs来调整,增大Lucene使用内存的次数。
如果内存足够大的话,我们也可以在索引过程中完全避免使用硬盘。Lucene支持使用文件系统和内存两种方式创建索引,我们可以先把索引写入到RAMDirectory,达到一定数量时再批量写进FSDirectory,减少磁盘操作次数。相关的代码如下:
RAMDirectory rmd = new RAMDirectory();
IndexWriter writer = new IndexWriter(rmd, new StandardAnalyzer(), true);
while (not eof) //遍历
{
Document doc = new Document();
doc.Add(…); //Add
Fields
writer.AddDocument(doc);
}
writer.SetUseCompoundFile(true);
writer.Optimize();
writer.Close();
另外,SetUseCompoundFile这个方法可以使Lucene在创建索引库时,会合并多个 Segments 文件到一个 .cfs 中。此方式有助于减少索引文件数量,对于将来搜索的效率有较大影响。
若需要从索引中删除某一个或者某一类文档,IndexReader提供了两种方法:
reader.DeleteDocument(int docNum)
reader.DeleteDocuments(Term term)
前者是根据文档的编号来删除该文档,docNum是该文档进入索引时Lucene的编号,是按照顺序编的;后者是删除满足某一个条件的多个文档。
在执行了DeleteDocument或者DeleteDocuments方法后,系统会生成一个*.del的文件,该文件中记录了删除的文档,但 并未从物理上删除这些文档。此时,这些文档是受保护的,当使用Document doc = reader.Document(i)来访问这些受保护的文档时,Lucene会报“Attempt to access a deleted document”异常。如果一次需要删除多个文档时,可以用两种方法来解决:
1. 删除一个文档后,用IndexWriter的Optimize方法来优化索引,这样我们就可以继续删除另一个文档。
2. 先扫描整个索引文件,记录下需要删除的文档在索引中的编号。然后,一次性调用DeleteDocument删除这些文档,再调用IndexWriter的Optimize方法来优化索引。
转自:http://blog.sina.com.cn/s/blog_56e2f4250100nxzy.html
相关文章推荐
- Lucene中创建索引的效率和删除索引的实现
- Lucene中创建索引的效率和删除索引的实现
- Lucene中创建索引的效率和删除索引的实现
- lucene.net 2.9.2 实现索引生成,修改,查询,删除功
- lucene学习笔记之索引创建、内容检索、分类器实现
- 使用lucene3.6创建索引和实现简单搜索
- lucene全文搜索之四:创建索引搜索器、6种文档搜索器实现以及搜索结果分析(结合IKAnalyzer分词器的搜索器)基于lucene5.5.3
- 使用lucene3.6创建索引和实现简单搜索
- 关于lucene2.0的创建、检索和删除功能的完整实现
- Lucene创建索引,删除索引
- ELK学习总结(2-4)bulk 批量操作-实现多个文档的创建、索引、更新和删除
- lucene索引_创建_域选项和lucene索引_的删除、更新.
- Lucene学习二:封装操作接口,实现删除、更新索引
- 关于lucene2.0的创建、检索和删除功能的完整实现
- lucene.net 2.9.2 实现索引生成,修改,查询,删除功能
- 关于lucene2.0的创建、检索和删除功能的完整实现
- lucene5学习 - 索引基本操作(创建,查询,更新,删除,分页)
- 一个lucene索引初始化,添加,删除,修改功能的实现
- lucene的开发环境配置,并实现lucene功能一:创建索引;及代码示例
- lucene.net 2.9.2 实现索引生成,修改,查询,删除功能