HDFS(十):DataNode工作机制
DataNode工作机制
1 工作流程图:
2 文字解析:
1.一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度、块数据的校验和、以及时间戳。
2.DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上报所有的块信息。
3.心跳是每3秒一次,心跳返回结果带有namenode给该datanode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个datanode的心跳,则认为该节点不可用。
4.集群运行中可以安全加入和退出一些机器
3 数据正确性:
如何保证数据没有出错呢?检验和派上用场:
1.当DataNode读取block的时候,它会计算checksum
2.如果计算后的checksum,与block创建时值不一样,说明block已经损坏。
3.client读取其他DataNode上的block.
4.datanode在其文件创建后周期验证checksum
4 KeepLive和心跳检测
datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。
HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为:
timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval。
而默认的dfs.namenode.heartbeat.recheck-interval 大小为5分钟,dfs.heartbeat.interval默认为3秒。
需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒,dfs.heartbeat.interval的单位为秒:
<property> <name>dfs.namenode.heartbeat.recheck-interval</name> <value>300000</value> </property> <property> <name> dfs.heartbeat.interval </name> <value>3</value> </property>
- 大数据之路-Hadoop-5-HDFS原理解析及NameNode、DataNode工作机制
- HDFS的写(读)数据流程、namenode和datanode工作机制总结
- Hadoop学习(三)— hdfs : NameNode与DataNode的实现机制
- NameNode和DataNode工作机制
- Hadoop学习(三)— hdfs : NameNode与DataNode的实现机制
- NameNode工作机制和DataNode副本工作机制
- DATANODE的工作机制
- Secondary Namenode的Check point机制以及Namenode、Datanode工作机制说明
- Hadoop的namenode的管理机制,工作机制和datanode的工作原理
- hadoop DataNode 工作机制
- HDFS-DataNode
- HDFS-Datanode磁盘选择策略分析
- 【配置CDH和管理服务】关闭DataNode前HDFS的调优
- hadoop异常:hdfs.server.datanode.DataNode: Problem connecting to server: localhost/127.0.0.1:8020
- HDFS-datanode数据块部分笔记
- hdfs某台服务器datanode服务占用cpu过高
- hadoop-HA集群搭建,启动DataNode,检测启动状态,执行HDFS命令,启动YARN,HDFS权限配置,C++客户端编程,常见错误
- HDFS中DataNode获取数据函数
- 后端分布式系列:分布式存储-HDFS DataNode 设计实现解析
- 在集群上安装Hadoop1.2.1,并配置好,启动hdfs后使用jps查看datanode,启动后过一会再看就消失了