您的位置:首页 > 其它

全文检索系统中海量数据的增量索引

2006-05-02 23:30 176 查看
全文检索系统中如果每天处理至少10多万条的文本数据,那么如何对这些新增加的数据进行增量索引并进行有效地管理是整个系统的关键。通过采用联合表或者并行表的方式来管理这些数据,但是每一个并行表的粒度应该设多大,设多少个子表或者并并行表都需要系统的应用规模来定。如果并行表的粒度过大,即使是在索引过程中采用的是拉链索引的方式来组织索引数据,也是需要大量的索引数据的遍历,若不是拉链更需要索引数据的大量移动来进行索引合并,进而严重影响系统性能。但是如果数据粒度过小,这样子表会很多,这样在检索时会影响到检索的性能,因为需要查询很多个子表才能返回结果。而如果对子表定期地合并,这样在合并的次数也会大大增加,合并完后还需要作一次整体索引。所以设计子表粒度和子表的个数时需要慎重考虑,根据自己系统的实际情况而定。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: