client读写hdfs的源码分析总结
2010-08-09 20:39
274 查看
周末花了一天的时间仔细了重温了一下client对HDFS文件的读写过程,总结如下:
每次读写都是以一个数据块的形式来进行的,并且包括数据内容和数据的校验值。另外,到
namenode
上获取相应的信息都是用
RPC
来通信的,而到
datanode
获取真正的数据块内容是由
Socket
的网络流来进行的,这是因为二者的通信数据量还是有些差别的,另外一点是考虑了网络拥塞问题。
同时客户端为了提高效率,一般都是从
datanode
上读写一个块大小的数据内容,然后缓存到本地内存的。另外到
namenode
上读取数据块信息也是类似的,一次性读取了多个数据块信息,缓存到本地内存,来减少
namenode
的通信拥塞。
另外,对于分布集群,要重点考虑以下问题:
数据划分,负载平衡,通信拥塞,各结点的本地数据管理,资源合理利用,错误处理等。
归根结底就是扩展性,可靠性,高性能。
每次读写都是以一个数据块的形式来进行的,并且包括数据内容和数据的校验值。另外,到
namenode
上获取相应的信息都是用
RPC
来通信的,而到
datanode
获取真正的数据块内容是由
Socket
的网络流来进行的,这是因为二者的通信数据量还是有些差别的,另外一点是考虑了网络拥塞问题。
同时客户端为了提高效率,一般都是从
datanode
上读写一个块大小的数据内容,然后缓存到本地内存的。另外到
namenode
上读取数据块信息也是类似的,一次性读取了多个数据块信息,缓存到本地内存,来减少
namenode
的通信拥塞。
另外,对于分布集群,要重点考虑以下问题:
数据划分,负载平衡,通信拥塞,各结点的本地数据管理,资源合理利用,错误处理等。
归根结底就是扩展性,可靠性,高性能。
相关文章推荐
- hadoop源码分析系列(七)——org.apache.hadoop.hdfs包完结篇——dataNode详解及总结
- Hadoop源码分析:HDFS数据读写流量控制(DataTransferThrottler类)
- Hadoop源码分析HDFS Client向HDFS写入数据的过程解析
- Hadoop源码分析HDFS Client向HDFS写入数据的过程解析
- HDFS dfsclient写文件过程 源码分析
- Hadoop源码分析(1):HDFS读写过程解析
- HDFS dfsclient写文件过程 源码分析
- HDFS dfsclient写文件过程 源码分析
- hdfs读写数据操作分析总结
- Hadoop源码分析(1):HDFS读写过程解析
- HDFS源码分析四-HDFS Client
- HDFS dfsclient读文件过程 源码分析
- Hadoop源码分析HDFS ClientProtocol——getBlockLocations
- Hadoop源码分析HDFS ClientProtocol——create
- HDFS dfsclient读文件过程 源码分析
- HDFS dfsclient写文件过程 源码分析
- Hadoop源码分析HDFS ClientProtocol——create
- Hadoop源码分析 HDFS ClientProtocol——addBlock
- Hadoop源码分析 HDFS ClientProtocol——addBlock