Hbase 基本原理学习总结
2016-04-13 11:09
267 查看
参考:http://www.searchtb.com/2011/01/understanding-hbase.html
Hbase是bigtable的开源山寨版本,是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作),主要用来存储非结构化和半结构化的松散数据。
Hbase数据模型:
列族
Hbase表中的每个列,都归属与某个列族。列族是表的schema的一部分(而列不是),必须在使用表之前定义。列名都以列族作为前缀。例如courses:history , courses:math 都属于
courses 这个列族。列族中可以动态添加新的列。
单元
HBase中通过row和columns确定的为一个存贮单元称为cell。
时间戳
每个单元都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由Hbase(在数据写入时自动 )赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。每个 cell中,不同版本的数据按照时间倒序排序
为了节省空间应对稀疏的数据,列可以被赋空值来节省空间
Row Key
与nosql数据库们一样,row key是用来检索记录的主键。访问Hbase table中的行,只有三种方式:
• 1, 通过单个row key访问
• 2, 通过row key的range
• 3, 全表扫描
Row key行键 (Row key)可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在Hbase内部,row key保存为字节数组。存储时,数据按照Row key的字典序(byte order)排序存储。设计key时,要充分利用排序存储这个特性,将经常一起读取的行存储放到一起。(位置相关性)
Hbase vs RMDBS
HBase架构:
HBase 组件
Region
– 表中一部分数据组成的子集
– 当Region内的数据过多时能够自动分裂,过少时会合并
Region Server
– 维护Master分配给它的region,处理对这些region的IO请求
– 负责切分在运行过程中变得过大的region
Master
– 为Region server分配region
– 负责region server的负载均衡
– 发现失效的region server并重新分配其上的region
– HDFS上的垃圾文件回收
Zookeeper
– 保证任何时候,集群中只有一个master
– 存贮所有Region的寻址入口。
– 实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Master
– 存储Hbase的schema,包括有哪些table,每个table有哪些column family
– 处理Region和Master的失效
来自为知笔记(Wiz)
Hbase是bigtable的开源山寨版本,是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作),主要用来存储非结构化和半结构化的松散数据。
Hbase数据模型:
列族
Hbase表中的每个列,都归属与某个列族。列族是表的schema的一部分(而列不是),必须在使用表之前定义。列名都以列族作为前缀。例如courses:history , courses:math 都属于
courses 这个列族。列族中可以动态添加新的列。
单元
HBase中通过row和columns确定的为一个存贮单元称为cell。
时间戳
每个单元都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由Hbase(在数据写入时自动 )赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。每个 cell中,不同版本的数据按照时间倒序排序
为了节省空间应对稀疏的数据,列可以被赋空值来节省空间
Row Key
与nosql数据库们一样,row key是用来检索记录的主键。访问Hbase table中的行,只有三种方式:
• 1, 通过单个row key访问
• 2, 通过row key的range
• 3, 全表扫描
Row key行键 (Row key)可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在Hbase内部,row key保存为字节数组。存储时,数据按照Row key的字典序(byte order)排序存储。设计key时,要充分利用排序存储这个特性,将经常一起读取的行存储放到一起。(位置相关性)
Hbase vs RMDBS
HBase架构:
HBase 组件
Region
– 表中一部分数据组成的子集
– 当Region内的数据过多时能够自动分裂,过少时会合并
Region Server
– 维护Master分配给它的region,处理对这些region的IO请求
– 负责切分在运行过程中变得过大的region
Master
– 为Region server分配region
– 负责region server的负载均衡
– 发现失效的region server并重新分配其上的region
– HDFS上的垃圾文件回收
Zookeeper
– 保证任何时候,集群中只有一个master
– 存贮所有Region的寻址入口。
– 实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Master
– 存储Hbase的schema,包括有哪些table,每个table有哪些column family
– 处理Region和Master的失效
来自为知笔记(Wiz)
相关文章推荐
- Red and Black
- JS在线编辑器
- Android通过ScaleGestureDetector实现图片缩放
- 兼容windows、mac的视频播放
- cv1.6hist直方图操作
- U-boot分析与移植(5)----U-boot移植
- memcache适用和不适用场景总结
- js数组添加或删除元素
- 根据不同分辨率加载不同 css 样芪表
- 如何实现高效的事件管理?
- Python 进阶 —— 使用 map reduce
- 使用ScrollView属性fillViewport解决android布局不能撑满全屏的问题
- 移动端Flex 布局新旧混合兼容
- Java中List集合被大家忽略的一个问题
- 排序算法---冒泡排序
- 析构函数的调用顺序
- U-boot分析与移植(4)-U-boot 添加命令
- 利用pod trunk发布程序,让你的项目可以被pod search
- 线程创建方式
- java 获取classpath下文件多种方式