您的位置：首页 > 大数据 > Hadoop

client读写hdfs的源码分析总结

2010-08-09 20:39 274 查看

周末花了一天的时间仔细了重温了一下client对HDFS文件的读写过程，总结如下：

每次读写都是以一个数据块的形式来进行的，并且包括数据内容和数据的校验值。另外，到
namenode
上获取相应的信息都是用
RPC
来通信的，而到
datanode
获取真正的数据块内容是由
Socket
的网络流来进行的，这是因为二者的通信数据量还是有些差别的，另外一点是考虑了网络拥塞问题。

同时客户端为了提高效率，一般都是从
datanode
上读写一个块大小的数据内容，然后缓存到本地内存的。另外到
namenode
上读取数据块信息也是类似的，一次性读取了多个数据块信息，缓存到本地内存，来减少
namenode
的通信拥塞。

另外，对于分布集群，要重点考虑以下问题：

数据划分，负载平衡，通信拥塞，各结点的本地数据管理，资源合理利用，错误处理等。

归根结底就是扩展性，可靠性，高性能。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航