您的位置：首页 > 大数据 > Hadoop

Hadoop：适合大数据的分布式存储与计算平台（第三讲）

2016-03-14 00:42 567 查看

1.hadoop：

作者：Doug Cutting
受Google三篇论文的启发

2.版本：
Apache：官方版本（1.1.2），学习使用
Cloudera：在apache版本的基础上添加功能，实现商业用途
Yahoo：现在已经集中在apache的版本上
3.hadoop的核心项目
HDFS:(Hadoop Distributed File System) 分布式文件系统
MapReduce:并行计算框架
4.HDFS的架构（主从结构中，主节点负责管理。从节点负责操作）
主从结构（只有一个主节点namenode,可以有很多个从节点datanodes）
namenode负责：
接收用户的操作请求

维护文件系统的目录结构
管理文件与block之间的关系，block与datanode之间的关系

datanode负责：
存储文件

文件被分成block存储在磁盘上

为保证数据安全，文件会有多个副本
5.MapReduce的架构
主从结构（只有一个主节点JobTracker，可以用很多个从节点TaskTrackers）
JobTracker负责：
接收客户提交的计算任务

把计算任务分给TaskTracker执行

监控TaskTracker的执行情况

TaskTrackers负责：
执行JobTracker分配的计算任务

6.Hadoop的特点：
扩容能力（Scalable）:能可靠地存储和处理千兆字节（PB）数据；

成本低（Economical）:可以通过普通机器组成的服务器群来分发以及处理数据；

高效率（Efficient）:通过分发数据，hadoop可以在数据的所在节点上并行处理；

可性靠（Reliable）:hadoop能自动地维护数据的多份副本，并且在任务失败后能自动重新部署计算任务
7.Hadoop集群的物理分布

说明：
a.下方的Rack分别表示两个机柜，分别存放多个服务器，左右两机柜都连接有自己的交换机，左右两个交换机又和总的交换机连接，所以，机柜上的各个服务器之间可以互相访问;
b.机柜上两个主节点分别都独占一台服务器，而从节点组合在一起存放在一台服务器上
8.单节点物理结构

说明：左右图分别表示主节点和从节点，图中主从节点都使用linux系统的服务器，并且都运行在java虚拟机上，因为hadoop是基于java开发的
9.Hadoop部署方式
本地部署（不常用）
伪分布模式（学习使用）
集群模式（公司使用）
10.安装前准备软件
VitualVox
centos
jdk-6u24-linux-xxx.bin
hadoop-1.1.2.tar.gz
11.伪分布模式安装步骤：（6步）
关闭防火墙
修改ip
修改hostname
设置ssh自动登录
安装jdk
安装hadoop

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hadoop介绍

相关文章推荐

新的分享

章节导航