Hadoop2.4.1学习笔记(二)之hdfs文件系统学习
2015-12-27 10:18
543 查看
Hadoop2.4.1学习笔记(二)之hdfs文件系统学习
Hdfs是分布式文件系统。
具体的实现机制:
1. 是将一个源文件分割成多个块,分别存在多台服务器中,每个块存在各个服务器的本地文件系统中。
2.对于客户端来说,会隐藏分布式的细节,由hdfs统一提供抽象的文件目录结构,在客户端访问时,是访问的该抽象目录结构,其内部会通过NameNode找到服务器对应的文件。
3.每个切分出来的块可以有多个副本,即我们可以在多个服务器上存储同一个块。这是为了防止当一个服务器不能正常工作时,整个系统瘫痪。客户端仍可以通过其他服务器的同样的副本文件来读取到完整的文件。
4.hdfs中的文件和具体的文件所在服务器中的实际存储关系是由专门的服务器NAMENODE来管理。
优点:
1.容量可以线性扩展,指的是:通过扩充服务器的数量来扩展存储容量。注意:由于单个块具有多个副本导致服务器的物理存储容量并不能完成存储与该容量等同的数据。但是可以通过扩展服务器的数量来弥补。
2.有副本机制:存储的可靠性高,吞吐量大。这里就是指单个的块有多个副本。
3.有了NAMENODE可以很好的隐藏分布式的细节,客户端可以直接访问hdfs文件目录即可访问到文件,不需要关心实际的文件存储位置。
对于文件存储节点DataNode的说明:
一个系统中会有多个DataNode节点,每个节点实际就是服务器(Linux或Windows系统),是提供真实文件数据的存储服务。
文件块是最小的存储单位,文件的大小是固定的,对于小于该大小的文件不会充分占用块固定空间。·
在上传文件时注意选择将小文件合并为大文件之后再上传,这样是为了充分利用每个块的大小。
副本的存放策略:
1.先在客户端所连接的DataNode上存放一个副本
2.再在另一个机架上随机选择一个DataNode存放一个副本
3.最后在本机架上根据负载情况随机挑选一个DataNode存放第三个副本文件
副本数量的优先级:
1、可以在服务端的hdfs-site.xml文件中可以配置
2、客户端的指定dfs.replication的值
这两者同时指定时客户端指定的优先级最高。
Hdfs是分布式文件系统。
具体的实现机制:
1. 是将一个源文件分割成多个块,分别存在多台服务器中,每个块存在各个服务器的本地文件系统中。
2.对于客户端来说,会隐藏分布式的细节,由hdfs统一提供抽象的文件目录结构,在客户端访问时,是访问的该抽象目录结构,其内部会通过NameNode找到服务器对应的文件。
3.每个切分出来的块可以有多个副本,即我们可以在多个服务器上存储同一个块。这是为了防止当一个服务器不能正常工作时,整个系统瘫痪。客户端仍可以通过其他服务器的同样的副本文件来读取到完整的文件。
4.hdfs中的文件和具体的文件所在服务器中的实际存储关系是由专门的服务器NAMENODE来管理。
优点:
1.容量可以线性扩展,指的是:通过扩充服务器的数量来扩展存储容量。注意:由于单个块具有多个副本导致服务器的物理存储容量并不能完成存储与该容量等同的数据。但是可以通过扩展服务器的数量来弥补。
2.有副本机制:存储的可靠性高,吞吐量大。这里就是指单个的块有多个副本。
3.有了NAMENODE可以很好的隐藏分布式的细节,客户端可以直接访问hdfs文件目录即可访问到文件,不需要关心实际的文件存储位置。
对于文件存储节点DataNode的说明:
一个系统中会有多个DataNode节点,每个节点实际就是服务器(Linux或Windows系统),是提供真实文件数据的存储服务。
文件块是最小的存储单位,文件的大小是固定的,对于小于该大小的文件不会充分占用块固定空间。·
在上传文件时注意选择将小文件合并为大文件之后再上传,这样是为了充分利用每个块的大小。
副本的存放策略:
1.先在客户端所连接的DataNode上存放一个副本
2.再在另一个机架上随机选择一个DataNode存放一个副本
3.最后在本机架上根据负载情况随机挑选一个DataNode存放第三个副本文件
副本数量的优先级:
1、可以在服务端的hdfs-site.xml文件中可以配置
2、客户端的指定dfs.replication的值
这两者同时指定时客户端指定的优先级最高。
相关文章推荐
- 为了安装htop 添加源
- 【GLSL教程】(三)在OpenGL中向shader传递信息
- .net IntPtr ==interoperable pointer
- Hbase原理、基本概念、基本架构
- linux 常用命令
- centos6.7 64 install virtuabox
- Shortest Proper Prefix---Trie树
- linux 下动态库使用示例
- open-vm-tools-dkms : 依赖: open-vm-tools (>= 2:9.4.0-1280544-5ubuntu3) 但是它将不会被安装
- win7与VMware ubuntu虚拟机实现文件共享(最后一定要装open-vm-dkms插件)
- SSH集成下OpenSessionInViewFilter无效不起作用
- vmware linux虚拟机 复制后不能上网
- 【GLSL教程】(二)在OpenGL中使用GLSL
- Linux -- 搜狗输入法安装完成之后的设置
- centos LB负载均衡集群 三种模式区别 LVS/NAT 配置 LVS/DR 配置 LVS/DR + keepalived配置 nginx ip_hash 实现长连接 LVS是四层LB 注意down掉网卡的方法 nginx效率没有LVS高 ipvsadm命令集 测试LVS方法 第三十三节课
- Vmware10版本安装ubuntu14.04系统的open-vm-dkms时出错
- ACL权限简介与开启-linux系列32
- Hadoop RPC 详解(参数调优)
- Hadoop RPC类详解(4)
- Hadoop RPC类详解(3)