Hadoop之谈谈HDFS
2015-08-10 11:25
239 查看
HDFS是一个分布式文件系统,它类似Linux下 Ext2,3,4一样的文件系统。只是它是分布式文件系统,能够容忍故障且不丢失数据。
HDFS是一个流式数据访问模式来存储大文件的,什么是流式?流式一般对应下载,就是可以传输过来一点数据,处理一点数据而不用等全部数据下载完。
HDFS是一个设计为高延迟,高吞吐的文件系统。
HDFS是namenode,datanode的结构。
HDFS的数据块单位是128M(低版本64MB),它的计算规则如下,假如块大小为 X,硬盘的寻址时间为10ms,硬盘的传输速度为100MB/s。为了让寻址时间占到传输时间的1%,则
X/(100MB/s) = 10ms/ (1%)
则推算出 X为100MB。
HDFS写文件流程,Client通知NameNode,NameNode给Clent分配一个DataNode序列,Client和最近DataNode建立链接,发送请求依次下传。最后一个DataNode,发送回包,依次回传。最后,Client释放链接。
HDFS读文件流程,Clinet联系Namdode,NameNode返回数据块信息及数据服务器的位置信息。尝试连接数据块的一个数据服务器,数据块被一个一个发回客户端,等这个块读完了,尝试连接另一个数据块的一个数据服务器,如此反复。
HDFS提供了很多压缩算法,目的为减少文件存储空间加快传输效率。
以上是个人现阶段整理及理解~~
HDFS是一个流式数据访问模式来存储大文件的,什么是流式?流式一般对应下载,就是可以传输过来一点数据,处理一点数据而不用等全部数据下载完。
HDFS是一个设计为高延迟,高吞吐的文件系统。
HDFS是namenode,datanode的结构。
HDFS的数据块单位是128M(低版本64MB),它的计算规则如下,假如块大小为 X,硬盘的寻址时间为10ms,硬盘的传输速度为100MB/s。为了让寻址时间占到传输时间的1%,则
X/(100MB/s) = 10ms/ (1%)
则推算出 X为100MB。
HDFS写文件流程,Client通知NameNode,NameNode给Clent分配一个DataNode序列,Client和最近DataNode建立链接,发送请求依次下传。最后一个DataNode,发送回包,依次回传。最后,Client释放链接。
HDFS读文件流程,Clinet联系Namdode,NameNode返回数据块信息及数据服务器的位置信息。尝试连接数据块的一个数据服务器,数据块被一个一个发回客户端,等这个块读完了,尝试连接另一个数据块的一个数据服务器,如此反复。
HDFS提供了很多压缩算法,目的为减少文件存储空间加快传输效率。
以上是个人现阶段整理及理解~~
相关文章推荐
- 各大型网站架构分析收集
- Linux下文件的阻塞与非阻塞对部分系统调用的影响
- linux下执行.sh文件的方法和语法
- 【原创】驱动加载之OpenSCManager
- 懒人 Linux内核编码风格
- Tomcat优化配置
- Shell 的source命令
- 【Linux笔记】
- 官方Tomcat 8.0.24 Web漏洞整改记录
- 自定义Tomcat 404错误页面
- 客户如何从案例分辨出网站建设公司的专业性
- PowerShell-第2章 管道
- Linux常用命令(三)
- #每日Linux小练习#07 Shell Script知识点总结(中)
- Linux 数据库学习的准备工作---C语言操作数据库
- linux c语言 select函数用法
- jlink_for_linux
- HDU 3853 LOOPS 可能性dp(水
- apache mvc的运用
- Linux下Android开发环境搭建