您的位置:首页 > 编程语言 > Java开发

java程序猿hadoop之路每日一小时

2014-11-05 15:51 225 查看
1、基础概念:hadoop是适合大数据的分布式存储与计算的平台。

2、硬件和软件要求:

           服务器:EXSI,可以部署多个虚拟机

           PC:Linux,windows+Cygwin

           SSH:客户端 SecurtCRT

           Vmware clinet: 管理Esxi

3、所用框架

主框架:

(核心项目)HDFS:文件系统,用来存储文件

(核心项目)MapReduce:并行计算HDFS中的数据

Hbase:分布式按列存储数据库,能够快速响应

Hive:分布式按列存储数据仓库,让hadoop能够支持sql,使用面广,但是要求较高,

      pig:与hive相似用来处理数据,但是实现方式是按照步骤一步一步实现

4、hadoop优点:

1)扩容能力强:能够存储够大的数据

2)成本低:可以用多个普通服务器来构建一个强大的服务器

3)效率高:同一批数据可以并行处理

4)可靠性:能够自动维护

HDFS架构:

主从结构

     主节点:只有一个:namenode

接收用户操作请求

维护文件系统的目录结构

管理文件和block(块)之间的关系,block与datanode之间的关系

     从节点:有很多个:datanodes

存储文件

文件被分成block存储在磁盘上

保证数据安全,文件有副本

MapReduce架构:

主从结构

主节点:只有一个:JobTracker

接收用户提交的计算任务

把计算任务分给TaskTrackers执行

监控TaskTracker的执行情况

从节点,有很多个:TaskTrackers

执行JobTracker分配的计算任务



5、部署方式

本地模式:直接存储在linux磁盘上,不存HDFS上

伪分布模式:一台机器上,其他与集群类似

集群模式:
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: