您的位置：首页 > 运维架构

hadoop学习笔记(1)

2016-04-15 17:26 239 查看

1.HDFS架构：

NameNode保存元数据信息，包括文件的owner，permission，block存储信息等。存储在内存。

2.HDFS设计思想

文件以块的形式存贮，即block，大小为64M，大于64的文件分块，小于64则为1块。文件在上传的时候会产生副本，副本与原文件在不同的节点上，这样当一个节点挂掉后不至于丢失文件。节点挂掉后会在空闲节点生成损失的文件，保证副本不会少。（容错性）

写文件前需要先创建文件，NameNode先获得文件信息，再告诉DistributedFileSystem上传的文件需要分为多少个block。写文件时NameNode告诉FSDataOutputStream写在哪。DataNode通过心跳包告诉NameNode自己是否空闲。

客户端写入数据到DataNode，客户端不产生副本，副本由DataNode根据副本分配策略，将文件复制到其他DataNode。

MapReducehe

每一个分片（split）都有一个线程去执行，并发地。

MR执行分为split（分片），map，shuffling，reduce四个步骤。最后生成的part保存在HDFS中。整个过程把HDFS的原始数据经过处理再存放。

MR执行过程如图：

杂乱的数据线split分片，通过mapping（程序员实现）计算输出和合并排序（shuffling）再依次传给reduce线程计算。

map的结果储存在内存，然后将内存中的数据partition（分区，按照程序partition中写的规则或者默认的分区规则），并排序，易写到磁盘。这部分操作都是属于一个Map Task，即在一个节点上的。reduce如何解决数据倾斜问题？通过partition的分配策略

Hadoop1与Hadoop2区别：

HA：主/备模式的NameNode，避免了Hadoop1中NameNode单点故障问题。

Federation：相当于NameNode的集群，针对数据量巨大的公司。

yarn：Hadoop的统一一资源管理系统，Hadoop2.X新增，个人理解是为了解耦，增加的一层

ZK即Zookeeper：管理NameNode，通过信条连接监控NameNode的情况，active的NameNode挂掉后投票选举产生新的active NameNode。Zookeeper为基数个。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航