您的位置:首页 > 运维架构

yarn & hadoop2.2 与 HBase with zookeeper环境集成

2014-03-17 22:09 246 查看
前面的是对hadoop整个系统的大致认识,今天就为学习hadoop搭建环境.

首先介绍为什么要使用这样的集成环境:



从这张图中的变化和前面对各个模块的介绍能了解,首先学习透彻,就必须把把所有模块都应用到,哪怕那些不常用的;但其他模块去哪了呢,因为我们学习要从简单的入手,但是这个集成架构也不是最简单的,首先说以下不同的应用对hadoop集成模块的需求:

1.如果应用只是简单的MapReduce访问(对数据的一个子集的访问,数据计算,排序等),那么使用HDFS就足够了,也就不需要HBASE和Zookeeper集成了,但是实际应用中这样简单的架构几乎不存在;

2. 如果对数据更新很频繁,那么选择HBase(当然要看数据量的大小)

3. 一个典型的解决方案是使用一个HBase的/ HDFS组合,HDFS存储的实际数据, HBase的为它的索引。数据是用于实时访问(决于数据的大小), Hadoop提供几个可用

解决方案。如果数据的密钥空间相对较小,并且数据不经常更改, SequenceFiles可以是一个相当不错的解决方案。在较大的密钥空间和数据更新要求的情况下,HBase的或HBase的/ HDFS的组合通常是最合适的解决方案。

这个要看具体应用的侧重点.

另外还有一个模块不能忽视:AVRO

AVRO提供一个快速的数据格式转换和二进制数据序列化/反序列化的解决方案,目前HBase0.9.6已经将其应用进去了,以后再深究.

值得一提的是HBase自0.92版本引入了两个新的特性HFile v2 Format 和Coprocessors,HFile v2 Format 解决传统HBase耗内存和启动慢的毛病,HFile V2 Format采用统一的HFile块能在无块索引情况下快速的搜索当前块,这样传统的块索引不常驻内存;HFile重构了读写层次,使得代码更容易维护;稀疏锁简化了分级块操作的同步块索引。

搭建集成环境参考网上的教程即可,需要提醒的是,HBase和Zookeeper的启动应该都启动,而且应该是Zookeeper先启动.

我的环境是 hadoop2.2 与 HBase0.96.1.1-hadoop2 与 zookeeper3.4.5.

另外在这里求hive与hadoop2整合的压缩包,如果有哪位编译了烦请email给我:zhuyu4839@gmail.com,本人非常感谢(因为太难编译了,老报错,搜不到解决方案的那种).
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐