cassandra 存储原理
2016-10-19 11:24
85 查看
参考:http://my.oschina.net/jsycwangwei/blog/420257
1 Cassandra 通过4个技术来维护数据的最终一致性,分别为逆熵(Anti-Entropy),读修复(Read Repair),提示移交(Hinted Handoff)和分布式删除。
逆熵:节点间定期检查数据一致性,使用markle tree,markle tree是hash树,叶节点是key的hash值,父节点是所有子节点值的hash值,只要root节点相同,则说明所有叶子节点相同
读修复:客户端读取某条数据时会返回数据并后台同步各节点数据保证一致,根据一致性要求 ONE(先返回一条再同步,可能不一致) QUORUM(读取超过一般副本后再返回) ALL(全部同步后再返回 最准确)
提示移交: keyA按照规则应该写入node1,然后复制到node2 node3,加入node1宕机,会封装一个带有hint的头部写入node4 然后复制给node2 node3,node1上线后会自动写入node1
分布式删除:删除时只对目标数据打一个删除标记的hint,定期对标记此hint的对象垃圾回收
2 cassandra每个节点分配多个token(从生产查询到 nodetool -host ip ring),通过一致性hash把数据分配到不同的token上
3 存储机制:借鉴bigtalbe设计,hbase和cassandra都是先记录日志 commit log,然后写入列族对应的内存Memtable,数据量达到块大小时写入SStable,因为内存中数据是按照key排序好的,所以cassandra只有顺序写入,没有随机写入,降低了对存储系统压力
4 num_tokens 每个节点上的虚拟节点(即在hash环中一个物理主机对应多个虚拟节点)个数,为了一致性hash时更加平衡
5 Consistency Level 是客户端连接数据库时的配置
replicationFactor 写入数据时的副本个数
以上配置一般是在java客户端程序的配置文件中
6 客户端连接数据库时只要根据配置连上一台就停止连接,因为每台主机都存储集群所有节点的元数据
7 cassandra写入数据原理
1>将key转化为token,根据二分法查找离给定token最近的一个节点,如果有备份个数(replicationFactor),会在token环中顺序返回多个节点
2>把数据写入commitLog 目的:数据没有持久化到内存时可以用来恢复
3>把数据写入Memtable,每添加一条数据自动检查是否条件(一般是条数),如果满足则输入到磁盘sstable
CommitLog
8 cassandra 查询数据原理
1>根据key查询memtable、MemtablesPendingFlush(从内存输入物理库的临时表)和sstable
2>查询sstable时根据key和每个sstable的filter比对(BloomFilter算法),这个filter存储这个sstable保存的所有key的hash值,并保存在内存中
3>上一步比较结果获取到index,index保存具体数据在data中的偏移量offset
4>根据offerset达到目标columnFamily,并把多个sstable获取的结果合并返回
5>在过程中有使用多重缓存,目的是减少sstable查询过程中的IO
9 cassandra删除数据原理
1>将指定key的column的value设置为系统时间,并将isMarkedForDelete设置为true,并插入该条数据
2>目的是用该条key数据更新原数据,查询时过滤掉isMarkedForDelete为true的数据,并没有真正删除
3>数据的真正删除是在sstable压缩过程中
10 sstable压缩
1>目的:cassandra的写入模式会导致memtable持续刷进sstable,导致多个大小相同的sstable,压缩是把同一个key的所有value合并
2>在压缩过程中删掉isMarkedForDelete为true的数据,并重建索引
1 Cassandra 通过4个技术来维护数据的最终一致性,分别为逆熵(Anti-Entropy),读修复(Read Repair),提示移交(Hinted Handoff)和分布式删除。
逆熵:节点间定期检查数据一致性,使用markle tree,markle tree是hash树,叶节点是key的hash值,父节点是所有子节点值的hash值,只要root节点相同,则说明所有叶子节点相同
读修复:客户端读取某条数据时会返回数据并后台同步各节点数据保证一致,根据一致性要求 ONE(先返回一条再同步,可能不一致) QUORUM(读取超过一般副本后再返回) ALL(全部同步后再返回 最准确)
提示移交: keyA按照规则应该写入node1,然后复制到node2 node3,加入node1宕机,会封装一个带有hint的头部写入node4 然后复制给node2 node3,node1上线后会自动写入node1
分布式删除:删除时只对目标数据打一个删除标记的hint,定期对标记此hint的对象垃圾回收
2 cassandra每个节点分配多个token(从生产查询到 nodetool -host ip ring),通过一致性hash把数据分配到不同的token上
3 存储机制:借鉴bigtalbe设计,hbase和cassandra都是先记录日志 commit log,然后写入列族对应的内存Memtable,数据量达到块大小时写入SStable,因为内存中数据是按照key排序好的,所以cassandra只有顺序写入,没有随机写入,降低了对存储系统压力
4 num_tokens 每个节点上的虚拟节点(即在hash环中一个物理主机对应多个虚拟节点)个数,为了一致性hash时更加平衡
5 Consistency Level 是客户端连接数据库时的配置
replicationFactor 写入数据时的副本个数
以上配置一般是在java客户端程序的配置文件中
6 客户端连接数据库时只要根据配置连上一台就停止连接,因为每台主机都存储集群所有节点的元数据
7 cassandra写入数据原理
1>将key转化为token,根据二分法查找离给定token最近的一个节点,如果有备份个数(replicationFactor),会在token环中顺序返回多个节点
2>把数据写入commitLog 目的:数据没有持久化到内存时可以用来恢复
3>把数据写入Memtable,每添加一条数据自动检查是否条件(一般是条数),如果满足则输入到磁盘sstable
CommitLog
8 cassandra 查询数据原理
1>根据key查询memtable、MemtablesPendingFlush(从内存输入物理库的临时表)和sstable
2>查询sstable时根据key和每个sstable的filter比对(BloomFilter算法),这个filter存储这个sstable保存的所有key的hash值,并保存在内存中
3>上一步比较结果获取到index,index保存具体数据在data中的偏移量offset
4>根据offerset达到目标columnFamily,并把多个sstable获取的结果合并返回
5>在过程中有使用多重缓存,目的是减少sstable查询过程中的IO
9 cassandra删除数据原理
1>将指定key的column的value设置为系统时间,并将isMarkedForDelete设置为true,并插入该条数据
2>目的是用该条key数据更新原数据,查询时过滤掉isMarkedForDelete为true的数据,并没有真正删除
3>数据的真正删除是在sstable压缩过程中
10 sstable压缩
1>目的:cassandra的写入模式会导致memtable持续刷进sstable,导致多个大小相同的sstable,压缩是把同一个key的所有value合并
2>在压缩过程中删掉isMarkedForDelete为true的数据,并重建索引
相关文章推荐
- Cassandra二级索引原理——新创建了一张表格,同时将原始表格之中的索引字段作为新索引表的Primary Key,并且存储的值为原始数据的Primary Key,然后再通过pk一级索引找到真正的值
- cassandra 3.x官方文档(6)---内部原理之存储引擎
- cassandra 3.x官方文档(6)---内部原理之存储引擎
- HBase底层存储原理——我靠,和cassandra本质上没有区别啊!都是kv 列存储,只是一个是p2p另一个是集中式而已!
- 【Cassandra】数据存储原理
- cassandra 3.x官方文档(6)---内部原理之存储引擎
- 深入分析HashMap原理(存储 碰撞检测 取值 扩容 hashCode equals等)
- Cassandra - 一个分散的结构化存储系统
- 结构决定性能 机械硬盘的存储原理
- 网盘存储原理探究
- 走进cassandra之五 存储机制
- Bloom Filter概念和原理 & 从哈希存储到Bloom Filter
- Atitit.数据索引 的种类以及原理实现机制 索引常用的存储结构
- 关于时间序列数据库的思考——(1)运用hash文件(例如:RRD,Whisper) (2)运用LSM树来备份(例如:LevelDB,RocksDB,Cassandra) (3)运用B-树排序和k/v存储(例如:BoltDB,LMDB)
- MySQL数据库InnoDB存储引擎多版本控制(MVCC)实现原理分析
- Android SharedPreferences数据存储原理解析及使用示例
- 线程本地存储TLS(Thread Local Storage)的原理和实现——分类和原理
- 浅谈Exchange Server邮件存储系统-原理篇(3)
- 硬盘存储原理及内部架构
- Mongodb Wiredtiger存储引擎实现原理