您的位置：首页 > 大数据 > Hadoop

分布式文件系统HDFS

2018-01-18 17:32 225 查看

1.什么是HDFS？

hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。源自于谷歌的GFS论文。发表于2003年，HDFS是GFS的克隆版。

2.HDFS的设计目标

（1）非常巨大的分布式文件系统

（2）运行在普通的廉价的硬件上

（3）易拓展，为用户提供性能不错的文件存储服务

3.HDFS架构

HDFS是Master/Slave架构。一个HDFS集群包括1个NameNode，也就是一个Master，和多个DataNode，也就是Slave。

在HDFS中，一个文件将会被拆分成多个Block（单位block大小，blocksize：128M），这些block被存储在一系列DataNodes上。

NameNode：（1）负责客户端请求的响应；（2）负责元数据（文件的名称、副本系数、Block存放的DataNode）的管理；

DataNode：（1）存储用户文件对应的Block；（2）定期向NameNode发送心跳信息，汇报自身及所有block信息，和健康状况；

比较典型的部署方式是集群内一台机器专门部署一个NameNode，其他机器部署DataNode。

4.HDFS的副本机制

HDFS将每个文件存储为一系列block，除了最后一个block，其他的每个block的大小是相同的，block有许多副本用于增加容错性。每个

文件被分成的block大小和副本系数可以被配置，应用程序能够指定文件的副本数，副本系数在文件创建时即确定，同时也可以之后进

行改变，HDFS内的文件只能被写一次，并且同一时刻只能有一个writer。

NameNode管理block副本的复制，它定期的从DataNode接收心跳和blockreport。

黄色代表每一个机器，绿色就是block，可以看到每一个block有多个副本，副本数由NameNode决定。

5.HDFS的优缺点

优点:

（1）高容错

（2）适合批处理

（3）适合大数据处理

（4）构建在廉价的机构上

缺点：

（1）低延迟的数据访问

（2）不适合小文件储存

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航