全文检索系统中海量数据的增量索引
2006-05-02 23:30
176 查看
全文检索系统中如果每天处理至少10多万条的文本数据,那么如何对这些新增加的数据进行增量索引并进行有效地管理是整个系统的关键。通过采用联合表或者并行表的方式来管理这些数据,但是每一个并行表的粒度应该设多大,设多少个子表或者并并行表都需要系统的应用规模来定。如果并行表的粒度过大,即使是在索引过程中采用的是拉链索引的方式来组织索引数据,也是需要大量的索引数据的遍历,若不是拉链更需要索引数据的大量移动来进行索引合并,进而严重影响系统性能。但是如果数据粒度过小,这样子表会很多,这样在检索时会影响到检索的性能,因为需要查询很多个子表才能返回结果。而如果对子表定期地合并,这样在合并的次数也会大大增加,合并完后还需要作一次整体索引。所以设计子表粒度和子表的个数时需要慎重考虑,根据自己系统的实际情况而定。
相关文章推荐
- 2014-1-3_solr学习之(十一)solr3.5的DIH的增量索引和数据的条件导入
- 转:solr 从数据库导入数据,全量索引和增量索引(实例&配置&原理)
- solr5.5配置定时全量、增量同步索引mysql数据
- 基于Solr DIH实现MySQL表数据全量索引和增量索引
- solr 从数据库导入数据,全量索引和增量索引
- 【Apache Solr系列之二】Apache Solr 4.5.1及MYSQL数据增量索引
- solr 从数据库导入数据,全量索引和增量索引(实例&配置&原理)
- Solr(搜索引擎服务)和MongoDB通过mongodb-connector进行数据同步的解决方案,以及遇到的各种坑的总结(针对solr-5.3.x版本),mongodb和solr实现实时增量索引
- sorl-5.5.3 mysql数据导入,索引更新,索引增量导入(三)
- solr 从数据库导入数据,全量索引和增量索引
- CentOS下rsync服务器安装与配置-数据同步-文件增量备份
- 大表数据加索引,加字段
- lucene索引合并与增量索引
- 利用DBCC PAGE查看SQL Server中的表和索引数据
- PostgresQL建立索引如何避免写数据锁定
- 大批量数据查询优化--建立索引
- HDFS源码分析心跳汇报之数据块增量汇报
- coreseek 增量索引模拟实时索引
- 通过变更数据捕获改善增量加载
- ES Java API - 获取索引下数据量