Facebook为何选择Hadoop和HBase
2011-06-11 14:48
169 查看
来源链接:http://cloud.csdn.net/a/20110601/299064.html?1307667497
前段时间Facebook的新版消息系统发布,Facebook对HBase的成功使用也使得很多的HBase案例得以出现,Facebook的Hadoop工程师Dhruba Borthakur发表了Hadoop系列文章对Facebook选择Hadoop和HBase的原因做了一个说明。
Dhruba Borthakur首先总结了Hadoop和HBase的优势。他认为HBase横向扩展性强。对Facebook这种少量数据存储场景来说,扩容几乎是家常便饭,HBase能够使数据扩容非常容易。并且支持很高的写吞吐。Facebook的消息数据很庞大,每天的写量也很大。同时在同一个数据中心,能够保证有较强的一致性。Facebook用HBase来存储消息数据,业务上需要一个能够保证一致性的数据存储(这也是Facebook并没有采用Cassandra的原因之一)。HBase还具有良好的随机读性能。消息系统的业务逻辑导致会有很多穿透缓存层的随机读操作。
由于数据量大,分布的机器也可能很多,出故障或者进行一些日常升级工作会比较频繁。所以高可用性和故障可恢复性也显得极其重要。错误隔离性是指一个结点的错误不会影响到其它结点,磁盘故障只会对相应的小规模的数据产生影响。同时提供原子性的read-modify-write操作。原子性的increment或者对比后修改的操作,对很多业务上的处理非常方便。最后提供获取某个范围的数据的功能。比如像获取某人最近100条消息这样的功能,在消息系统里也是很常见的需求。
当然,下面几个Hadoop和HBase不太擅长的方面也值得一说。首先是同一个数据中心网络割裂下的容灾性。同一个数据中心的网络出现问题了,导致各结点之间无法正常沟通,这种情况通常可以通过配置一些备用的网络设备来避免。其次某个数据中心故障不会影响服务。这个情况更是少之又少。最后在多个数据中心间的实时数据交换。这个不太现实,通常这一点是用Cache层来实现用户对无端数据的实时访问的。
译文链接:NoSQLfan
原文链接:hadoopblog.blogspot.com(需代理)
前段时间Facebook的新版消息系统发布,Facebook对HBase的成功使用也使得很多的HBase案例得以出现,Facebook的Hadoop工程师Dhruba Borthakur发表了Hadoop系列文章对Facebook选择Hadoop和HBase的原因做了一个说明。
Dhruba Borthakur首先总结了Hadoop和HBase的优势。他认为HBase横向扩展性强。对Facebook这种少量数据存储场景来说,扩容几乎是家常便饭,HBase能够使数据扩容非常容易。并且支持很高的写吞吐。Facebook的消息数据很庞大,每天的写量也很大。同时在同一个数据中心,能够保证有较强的一致性。Facebook用HBase来存储消息数据,业务上需要一个能够保证一致性的数据存储(这也是Facebook并没有采用Cassandra的原因之一)。HBase还具有良好的随机读性能。消息系统的业务逻辑导致会有很多穿透缓存层的随机读操作。
由于数据量大,分布的机器也可能很多,出故障或者进行一些日常升级工作会比较频繁。所以高可用性和故障可恢复性也显得极其重要。错误隔离性是指一个结点的错误不会影响到其它结点,磁盘故障只会对相应的小规模的数据产生影响。同时提供原子性的read-modify-write操作。原子性的increment或者对比后修改的操作,对很多业务上的处理非常方便。最后提供获取某个范围的数据的功能。比如像获取某人最近100条消息这样的功能,在消息系统里也是很常见的需求。
当然,下面几个Hadoop和HBase不太擅长的方面也值得一说。首先是同一个数据中心网络割裂下的容灾性。同一个数据中心的网络出现问题了,导致各结点之间无法正常沟通,这种情况通常可以通过配置一些备用的网络设备来避免。其次某个数据中心故障不会影响服务。这个情况更是少之又少。最后在多个数据中心间的实时数据交换。这个不太现实,通常这一点是用Cache层来实现用户对无端数据的实时访问的。
译文链接:NoSQLfan
原文链接:hadoopblog.blogspot.com(需代理)
相关文章推荐
- Facebook为何选择了Hadoop和HBase
- Facebook为何选择云计算开源Hadoop
- 揭秘FaceBook Puma演变及发展——FaceBook公司的实时数据分析平台是建立在Hadoop 和Hive的基础之上,这个根能立稳吗?hive又是sql的Map reduce任务拆分,底层还是依赖hbase和hdfs存储
- Hbase-MongoDB-MemCache-Redis-PostgreSQL-Hadoop/Spark如何选择
- Facebook谈 Hadoop,Hive,HBase和 A/B测试(转载)
- [Hadoop in China 2011] eBay:选择HBase建立搜索引擎的原因
- HBase in Production at Facebook – Jonathan Gray at Hadoop World 2010
- 大数据处理为何选择Spark,而不是Hadoop
- [大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程
- ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times
- Zookeeper 3.4.6 试水 & Hbase 0.98.3 for Hadoop 2 单节点配置
- hbase0.96+hadoop2.2分页中遇到的问题
- Hadoop、Spark、HBase与Redis的适用性见解
- nutch-2.2.1 hadoop-1.2.1 hbase-0.92.1 集群部署
- hbase安装配置(整合到hadoop)
- centos和hadoop环境下搭建hbase
- 大数据: 完全分布式Hadoop集群-HBase安装
- ubantu系统中Hadoop伪分布环境搭建与hbase配置
- hbase安装配置(整合到hadoop)
- 大数据之 ZooKeeper原理及其在Hadoop和HBase中的应用