您的位置：首页 > 运维架构

Hadoop源码分析HDFS Client向HDFS写入数据的过程解析

2012-09-24 21:08 971 查看

Client以数据块（Block）为单位进行数据存储。按照我们一般的理解，Client向HDFS写入数据，首先需要向NameNode申请Block；申请Block完成后，申请DataNode（包括备份存储的DataNode）；二者完成后，Clent进行与DataNode之间的数据存储。

我们知道NameNode之中维护两张非常重要的表，一张是filename→blocks的映射；另外一张是block→machinelist的映射。如果是我进行设计，这两张表都可以在申请的时候完成记录。HDFS在在实现过程中，采用了另外一种方式。首先filename→blocks是在申请过程中进行记录的。当Client申请Block的时候，NameNode分配Block给客户端，并将该Block记录到该File的INode当中；在申请Block的时候，NameNode还会将DataNode和备份存储的DataNode发送给Client。但是，此时NameNode并没有记录Block和DataNode（machinelist)的映射关系。Client向DataNode写入数据完成后，由DataNode向NameNode周期性的进行汇报，报告自己节点所存储的所有Block（思考一下，为什么这么实现？）。我自己以为之所以要这么实现主要是为了考虑数据的可靠性，如果在Client和数据的传输过程中数据出现了问题，那么已经记录在NameNode 中的block→machinelist就会随之改变。当然这只是我自己的考虑，正确与否还有待考证。另外还有一个需要考虑的问题是，DataNode报告自己的block列表的频率是多少呢？

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

添加评论
分享网址
分享文章
返回顶部