您的位置:首页 > 其它

Cassandra 2.X 内置二级索引浅析

2015-07-04 16:23 274 查看

Cassandra 2.X 内置二级索引浅析

Cassandra内置二级索引

Cassandra系统内置两种二级索引,分别是KeysIndex和CompositesIndex。

Cassandra源代码中与二级索引密切相关的包有

org.apache.cassandra.db.index
org.apache.cassandra.db.index.keys
org.apache.cassandra.db.index.composites


第一个包的文件为二级索引相关组件的实现,以及对二级索引基本方法的定义

后两个包的文件对应着KeysIndex和CompositesIndex的具体实现

KeysIndex为一种倒排索引的实现,下面主要对其实现进行分析

KeysIndex的存储方式

在Cassandra中,数据都是以Key-value的形式保存的。



KeysIndex所创建的二级索引也被保存在一张ColumnFamily中。在插入数据时,对需要进行索引的value进行摘要,生成独一无二的key,将其作为RowKey保存在索引的ColumnFamily中;同时在RowKey上添加一个Column,将插入数据的RowKey作为name域的值,value域则赋空值,timestamp域则赋为插入数据的时间戳。

如果有相同的value被索引了,则会在索引ColumnFamily中相同的RowKey后再添加新的Column。如果有新的value被索引,则会在索引ColumnFamily中添加新的RowKey以及对应新的Column。

当对value进行查询时,只需计算该value的RowKey,在索引ColumnFamily中的查找该RowKey,对其Columns进行遍历就能得到该value所有数据的RowKey。

KeysIndex的插入和查询过程

插入过程请参考

insert(ByteBuffer, Cell, Group) : void - org.apache.cassandra.db.index.AbstractSimplePerColumnSecondaryIndex
方法。

大致过程为计算索引的RowKey,生成Column容器,添加Column内容,在写入到索引的ColumnFamily中。

查询过程请参考
search(ExtendedFilter) : List<Row> - org.apache.cassandra.db.index.keys.KeysSearcher
方法。

大致过程为根据查询条件,计算查询value的RowKey,到二级索引ColumnFamily中查找,返回源数据的RowKey,构造查询结果迭代器,返回查询结果List。

注意:在Cassandra 2.X的源代码中,ColumnFamily、RowKey、Columns分别对应了源代码中的ColumnFamilyStore、DecoratedKey、ColumnFamily,Column对应了Column或者是Cell

参考文献

[1] https://pkghosh.wordpress.com/2011/03/02/cassandra-secondary-index-patterns/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  cassandra 二级索引