您的位置:首页 > 大数据 > Hadoop

client读写hdfs的源码分析总结

2010-08-09 20:39 274 查看
周末花了一天的时间仔细了重温了一下client对HDFS文件的读写过程,总结如下:

每次读写都是以一个数据块的形式来进行的,并且包括数据内容和数据的校验值。另外,到
namenode
上获取相应的信息都是用
RPC
来通信的,而到
datanode
获取真正的数据块内容是由
Socket
的网络流来进行的,这是因为二者的通信数据量还是有些差别的,另外一点是考虑了网络拥塞问题。

同时客户端为了提高效率,一般都是从
datanode
上读写一个块大小的数据内容,然后缓存到本地内存的。另外到
namenode
上读取数据块信息也是类似的,一次性读取了多个数据块信息,缓存到本地内存,来减少
namenode
的通信拥塞。

另外,对于分布集群,要重点考虑以下问题:

数据划分,负载平衡,通信拥塞,各结点的本地数据管理,资源合理利用,错误处理等。

归根结底就是扩展性,可靠性,高性能。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: