大数据时代结构化存储云HBase技术架构及最佳实践
2017-09-05 15:28
507 查看
点击查看全文
为什么应用HBase
一般而言,传统关系型数据库面临着成本、容量、QPS、分析等多方面的问题:存储成本较高;无法满足TB、PB级别的数量存储需求;QPS无法满足较高的并发要求,性能不能横向扩展;数据隔离,从而不能满足分析类的需求。
通过关系型数据库MySQL,可以解决中小数据库存储需求;通过分库分表,能够解决一定容量及并发的需求,但是其实现复杂,需要业务感知;通过以HBase为代表的分布式数据库,可以支持高到千万的并发,满足海量数据的存储。
那么怎么解决传统数据库这些问题呢?HBase给出了相应的应对方法:
LSM-Tree:写吞吐高,离线导入效率高;
存储无限扩容:计算存储分离,分布式存储可以无限扩容;
自动分区:分区自动分裂,分区自动Merge;
Hadoop生态:Phoenix满足查询需求,Spark接HBase,可以满足分析类需求。
HBase除了可以满足业务较快增长的高吞吐以及大容量读取需求,还有其他传统关系型数据库和非关系型数据库所不具备的特性:比如松散表(不存数据,不占空间);实时更新、增量导入、多维删除;随机查询、范围查询。
此外,HBase还有许多其他特性:
LSM树:实时写入吞吐量大,增量导入隔离性强;
TTL:数据时效性,系统自动处理;
多版本:数据的第三维度,高效删除方式;
动态列:数据发散的利器;
协处理器:满足数据高效处理;
SQL访问:二级索引;
即时查询:操作性查询,准实时。
HBase的能力是完全可以线性扩展的,通过添加节点就可以线性增强计算存储能力。
应用实战
HBase具有丰富的应用场景,凭借海量的存储能力和高吞吐能力,为各种应用场景提供支持,包括报表类、时序类、日志类、消息类、推荐类、风控类、轨迹类,行业包括电子商务、物联网/车联网、聊天软件、金融、广告商、新闻、电信等等。
HBase具有庞大的生态圈,支持实时数据分析、即时分析、多维分析、时序数据库等场景。
在阿里内部,HBase的使用涉及日志、聊天、监控、订单、IOT、风控、搜索等。中国使用的公司还有京东、小米、腾讯、网易、360、知乎、中国人寿、电信......几乎所有的一定规模的公司。
实际案例——传感器监控类
在rowkey有一定的设计规则,业务系统会做一些优化,比如把多行压成一行等等。
实际案例——单车/司机轨迹
轨迹类应用可以满足离线大规模的轨迹分析,满足用户、后端人员的实时查询。
实际案例——双十一大屏
这是阿里内部非常具有代表性的场景。高吞吐、高并发、低延迟的访问需求下,对HBase应用提出了很高的要求。
实际案例——安全风控
在金融的战场上,用户画像、风控一直也是核心之一,一般的数据也是存储在HBase。
实际案例——搜索
搜索是HBase最先解决的一个场景,目标是为了存储互联网,流式计算实时处理后再导入到搜索引擎。
实际案例——分析类
以上分享的场景都在阿里内部及云上的实际业务中得以使用,满足了高性能高存储量的需求。
下图展示了HBase在业务中所处的位置,以及整体数据流的流向。
ApsaraDB for HBase平台解读
点击查看全文
为什么应用HBase
一般而言,传统关系型数据库面临着成本、容量、QPS、分析等多方面的问题:存储成本较高;无法满足TB、PB级别的数量存储需求;QPS无法满足较高的并发要求,性能不能横向扩展;数据隔离,从而不能满足分析类的需求。
通过关系型数据库MySQL,可以解决中小数据库存储需求;通过分库分表,能够解决一定容量及并发的需求,但是其实现复杂,需要业务感知;通过以HBase为代表的分布式数据库,可以支持高到千万的并发,满足海量数据的存储。
那么怎么解决传统数据库这些问题呢?HBase给出了相应的应对方法:
LSM-Tree:写吞吐高,离线导入效率高;
存储无限扩容:计算存储分离,分布式存储可以无限扩容;
自动分区:分区自动分裂,分区自动Merge;
Hadoop生态:Phoenix满足查询需求,Spark接HBase,可以满足分析类需求。
HBase除了可以满足业务较快增长的高吞吐以及大容量读取需求,还有其他传统关系型数据库和非关系型数据库所不具备的特性:比如松散表(不存数据,不占空间);实时更新、增量导入、多维删除;随机查询、范围查询。
此外,HBase还有许多其他特性:
LSM树:实时写入吞吐量大,增量导入隔离性强;
TTL:数据时效性,系统自动处理;
多版本:数据的第三维度,高效删除方式;
动态列:数据发散的利器;
协处理器:满足数据高效处理;
SQL访问:二级索引;
即时查询:操作性查询,准实时。
HBase的能力是完全可以线性扩展的,通过添加节点就可以线性增强计算存储能力。
应用实战
HBase具有丰富的应用场景,凭借海量的存储能力和高吞吐能力,为各种应用场景提供支持,包括报表类、时序类、日志类、消息类、推荐类、风控类、轨迹类,行业包括电子商务、物联网/车联网、聊天软件、金融、广告商、新闻、电信等等。
HBase具有庞大的生态圈,支持实时数据分析、即时分析、多维分析、时序数据库等场景。
在阿里内部,HBase的使用涉及日志、聊天、监控、订单、IOT、风控、搜索等。中国使用的公司还有京东、小米、腾讯、网易、360、知乎、中国人寿、电信......几乎所有的一定规模的公司。
实际案例——传感器监控类
在rowkey有一定的设计规则,业务系统会做一些优化,比如把多行压成一行等等。
实际案例——单车/司机轨迹
轨迹类应用可以满足离线大规模的轨迹分析,满足用户、后端人员的实时查询。
实际案例——双十一大屏
这是阿里内部非常具有代表性的场景。高吞吐、高并发、低延迟的访问需求下,对HBase应用提出了很高的要求。
实际案例——安全风控
在金融的战场上,用户画像、风控一直也是核心之一,一般的数据也是存储在HBase。
实际案例——搜索
搜索是HBase最先解决的一个场景,目标是为了存储互联网,流式计算实时处理后再导入到搜索引擎。
实际案例——分析类
以上分享的场景都在阿里内部及云上的实际业务中得以使用,满足了高性能高存储量的需求。
下图展示了HBase在业务中所处的位置,以及整体数据流的流向。
ApsaraDB for HBase平台解读
点击查看全文
相关文章推荐
- 解读数据传输DTS技术架构及最佳实践
- 微信红包订单存储架构变迁的最佳实践
- 微信红包订单存储架构变迁的最佳实践
- Aliware-MQ消息队列技术架构与最佳实践
- 微信红包订单存储架构变迁的最佳实践
- Aliware-MQ消息队列技术架构与最佳实践
- 大数据时代结构化存储云HBase技术架构及最佳实践
- [笔记]微信红包订单存储架构变迁的最佳实践
- 腾讯技术工程 | QQ相册后台存储架构重构与跨IDC容灾实践
- 解读数据传输DTS技术架构及最佳实践
- 新手入门:零基础理解大型分布式架构的演进历史、技术原理、最佳实践
- 轻量级微服务架构及最佳实践
- 架构设计最佳实践之DRY
- 通过双十一等项目实践看架构技术
- 小米网技术架构变迁实践
- 技术培训 | 青云QingCloud 对象存储应用与实践
- 容器SDN技术与微服务架构实践
- Redis 高可用架构最佳实践
- Facebook图片存储架构技术全解析
- 互联网高可用架构技术实践