hadoop(二)HDFS概述、shell操作、客户端操作(各种API操作)以及hdfs读写流程
hadoop系列笔记
hadoop(一)入门、hadoop架构、集群环境搭建.
hadoop(二)HDFS概述、shell操作、客户端操作(各种API操作)以及hdfs读写流程.
hadoop(三)hdfs的NameNode和DataNode工作机制.
hadoop(四)MapReduce入门及序列化实操.
hadoop(五)MapReduce框架原理及工作机制.
hadoop(六)hadoop数据压缩、yarn架构及工作原理、hadoop企业优化.
文章目录
第一章HDFS概述
1.1 HDFS产生背景
- 随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。
1.2 HDFS概念
- HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
- HDFS 使用场景:HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。
1.3 HDFS优缺点
1.3.1 优点
- 1)高容错性
(1)数据自动保存多个副本。它通过增加副本的形式,提高容错性。
(2)某一个副本丢失以后,它可以自动恢复。 - 2)适合大数据处理
(1)数据规模:能够处理数据规模达到 GB、TB、甚至PB级别的数据。
(2)文件规模:能够处理百万规模以上的文件数量,数量相当之大。 - 3)流式数据访问,它能保证数据的一致性。
- 4)可构建在廉价机器上,通过多副本机制,提高可靠性。
1.3.2 缺点
- 1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。
- 2)无法高效的对大量小文件进行存储
(1)存储大量小文件的话,它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的,因为NameNode的内存总是有限的。
(2)小文件存储的寻道时间会超过读取时间,它违反了HDFS的设计目标。 - 3)并发写入、文件随机修改
(1)一个文件只能有一个写,不允许多个线程同时写。
(2)仅支持数据 append(追加),不支持文件的随机修改。
1.4 HDFS组成架构
- 1)Client:就是客户端。
(1)文件切分。文件上传 HDFS 的时候,Client 将文件切分成一个一个的Block,然后进行存储。
(2)与NameNode交互,获取文件的位置信息。
(3)与DataNode交互,读取或者写入数据。
(4)Client提供一些命令来管理HDFS,比如启动或者关闭HDFS。
(5)Client可以通过一些命令来访问HDFS。 - 2)NameNode:就是Master,它是一个主管、管理者。
(1)管理HDFS的名称空间。
(2)管理数据块(Block)映射信息
(3)配置副本策略
(4)处理客户端读写请求。 - 3)DataNode:就是Slave,NameNode下达命令,DataNode执行实际的操作。
(1)存储实际的数据块。
(2)执行数据块的读/写操作。 - 4)Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。
(1)辅助NameNode,分担其工作量。
(2)定期合并Fsimage和Edits,并推送给NameNode。
这时都会疑问secondary NameNode存在的意义,请看Secondary NameNode存在的意义,与NameNode的区别.
1.5 HDFS文件块大小(面试重点)
- HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M。
第2章 HDFS的Shell操作(开发重点)
2.1 基本语法
hadoop fs 具体命令 OR hdfs dfs 具体命令
dfs是fs的实现类
2.2 hadoop fs常用命令
用法是hadoop fs 加下面后缀执行
-
1.HDFS–>HDFS
-cp:从HDFS的一个路径拷贝到HDFS的另一个路径 - -mv:在HDFS目录中移动文件
- -chown、 chgrp、chmod:Linux文件系统中的用法一样,修改文件所属权限
- -mkdir :在HDFS上创建目录
- -du:统计文件夹的大小信息
- -df:查看文件的使用情况和分区
- -cat:显示文件内容
- -rm:删除指定文件
- -rm -R :删除文件夹
2.本地–>HDFS
-
-put:上传 等同于copyFromLocal
3.HDFS–>本地
-
-get:等同于copyToLocal,就是从HDFS下载文件到本地
4.其他
-
-rm:删除指定文件
D:\software\hadoop-2.7.2
第3章 HDFS客户端操作(开发重点)
3.1 HDFS客户端环境准备
- 1.根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(例如:D:\software\hadoop-2.7.2),如图3-4所示
- 2.配置HADOOP_HOME环境变量
- 3.配置Path环境变量
在path中加入%HADOOP_HOME\bin; - 4执行winutils测试
或者这样测(都行)
测试成功一定要重启一下 - 5.创建一个Maven工程HdfsClientDemo
- 6.导入相应的依赖坐标+日志添加
<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-core</artifactId> <version>2.8.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.7.2</version> </dependency> <dependency> <groupId>jdk.tools</groupId> <artifactId>jdk.tools</artifactId> <version>1.8</version> <scope>system</scope> <systemPath>${JAVA_HOME}/lib/tools.jar</systemPath> </dependency> </dependencies>
导完之后,需要在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入
log4j.rootLogger=INFO, stdout log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n log4j.appender.logfile=org.apache.log4j.FileAppender log4j.appender.logfile.File=target/spring.log log4j.appender.logfile.layout=org.apache.log4j.PatternLayout log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
- 7.创建包名:com.liuyongjun.hdfs
- 8.创建HdfsClient类
package com.liuyongjun.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.junit.Test; import java.io.IOException; import java.net.URI; /** * @author liuyongjun * @date 2020-06-30-16:19 */ public class HdfsClient { @Test public void get() throws IOException, InterruptedException { // 1 获取文件系统(hdfs抽象封装对象) Configuration configuration = new Configuration(); // 配置在集群上运行 // configuration.set("fs.defaultFS", "hdfs://hadoop102:9000"); // FileSystem fs = FileSystem.get(configuration); /*三个参数:URI:统一资源标识符,指定一下hdfs资源,hdfs://hadoop102:9000,首先hdfs是指schema(模式),是指用hdfs模式进行访问 hadoop102:9000是访问位置 configuration:之前搭hadoop集群,在配置文件的configration标签中配置的 user:登录用户 得到的fs就是文件系统(hdfs抽象封装对象) */ FileSystem fs = FileSystem.get(URI.create("hdfs://hadoop102:9000"), configuration, "liuyongjun"); // 2 下载到本地(用这个对象操作文件系统) //Path是hadoop提供的对路径进行封装的抽象类 fs.copyToLocalFile(new Path("/test"),new Path("d:\\")); // 3 关闭资源 //hdfs不支持并发写入,所以关闭资源 fs.close(); } }
3.2 HDFS的API操作
- HDFS文件名更改
@Test public void rename() throws IOException, InterruptedException { //获取文件系统 FileSystem fs = FileSystem.get(URI.create("hdfs://hadoop102:9000"), new Configuration(), "liuyongjun"); //操作 fs.rename(new Path("/test"),new Path("/test2")); //关闭文件系统 fs.close(); }
结果:
- 一个一个太麻烦了,其他文件操作用before,test,after一起执行,开始写before,最后写after,中间测试,头尾必执行,可以将重复命令放在那里
package com.liuyongjun.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils; import org.junit.After; import org.junit.Before; import org.junit.Test; import javax.swing.*; import java.io.FileInputStream; import java.io.IOException; import java.net.URI; /** * @author liuyongjun * @date 2020-06-30-16:19 */ public class HdfsClient { private FileSystem fs; @Test public void get() throws IOException, InterruptedException { // 1 获取文件系统 Configuration configuration = new Configuration(); /*三个参数:URI:统一资源标识符,指定一下hdfs资源,hdfs://hadoop102:9000,首先hdfs是指schema(模式),是指用hdfs模式进行访问 hadoop102:9000是访问位置 configuration:之前搭hadoop集群,在配置文件的configration标签中配置的 user:登录用户 得到的fs就是文件系统(hdfs抽象对象) */ FileSystem fs = FileSystem.get(URI.create("hdfs://hadoop102:9000"), configuration, "liuyongjun"); // 2 下载 //Path是hadoop提供的对路径进行封装的抽象类 fs.copyToLocalFile(new Path("/test"),new Path("d:\\")); // 3 关闭资源 //hdfs不支持并发写入,所以关闭资源 fs.close(); } @Before public void before() throws IOException, InterruptedException { //获取文件系统 fs = FileSystem.get(URI.create("hdfs://hadoop102:9000"), new Configuration(), "liuyongjun"); } @Test public void rename() throws IOException { //操作HDFS文件名更改 fs.rename(new Path("/test"),new Path("/test2")); } @Test public void testCopyFromLocalFile() throws IOException { //HDFS文件上传 fs.copyFromLocalFile(new Path("d:/2.txt"),new Path("/")); } @Test public void append() throws IOException { //HDFS文件拼接操作 FSDataOutputStream append = fs.append(new Path("/test/1.txt"), 1024); FileInputStream open = new FileInputStream("d:/testhdfs/2.txt"); //流拷贝 IOUtils.copyBytes(open,append,1024,true); //上面输入是本地,输出是hdfs,所以为文件上传 //如果输入为hdfs,输出为本地,则为文件下载 //hdfs获取输入流用open,获取输出流用append } @Test public void delete() throws IOException, InterruptedException { //删除操作 boolean delete = fs.delete(new Path("/test2"), true); if(delete){ System.out.println("删除成功"); }else{ System.out.println("删除失败"); } } @Test public void ls() throws IOException { //HDFS文件查看 FileStatus[] fileStatuses = fs.listStatus(new Path("/")); for (FileStatus fileStatus : fileStatuses) { //HDFS文件和文件夹判断 if(fileStatus.isFile()){ System.out.println("以下信息是一个文件的信息"); System.out.println(fileStatus.getPath()); System.out.println(fileStatus.getLen()); }else{ System.out.println("以下信息是一个文件夹的信息"); System.out.println(fileStatus.getPath()); } } } @Test public void listFiles() throws IOException { //查看目录下所有文件 RemoteIterator<LocatedFileStatus> files = fs.listFiles(new Path("/"), true); while(files.hasNext()){ LocatedFileStatus file = files.next(); System.out.println("=============================="); System.out.println(file.getPath()); System.out.println("块信息"); BlockLocation[] blockLocations = file.getBlockLocations(); for (BlockLocation blockLocation : blockLocations) { String[] hosts = blockLocation.getHosts(); System.out.print("块在"); for (String host : hosts) { System.out.print(host+" "); } } } } @After public void after() throws IOException { //关闭文件系统 fs.close(); } }
- 注意参数优先级的考虑 拿上传文件进行举例
- 首先将hdfs-site.xml拷贝到项目的根目录下
hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <!--指定HDFS副本的数量--> <property> <name>dfs.replication</name> <value>2</value> </property> </configuration>
上传程序
@Test public void testCopyFromLocalFile() throws Exception { // 1 获取文件系统 Configuration configuration = new Configuration(); //设置配置文件 configuration.set("dfs.replication", "1"); FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "liuyongjun"); // 2 上传文件 fs.copyFromLocalFile(new Path("d:/1.txt"), new Path("/1.txt")); // 3 关闭资源 fs.close(); System.out.println("over"); }
上面我们设置副本数,服务器默认是3个,ClassPath下的用户自定义配置2个,客户端代码中设置的是1个,我们看看它响应哪个,则哪个优先级高
如图,副本数为:
所以参数优先级排序:(1)客户端代码中设置的值 >(2)ClassPath下的用户自定义配置文件 >(3)然后是服务器的默认配置
第四章HDFS的数据流(面试重点)
4.1HDFS 写数据流程
- 首先,两个重要概念:
NameNode:领导级别。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间; DataNode:员工级别。负责存储客户端发来的数据块block;执行数据块的读写操作。
- 写流程
写详细步骤: 1、首先向namenode通信,请求上传文件,namenode检查目标文件是否已存在,父目录是否存在 ,还得看看是否有上传的权限,说白了,就是判断是否可以上传 2、namenode返回是否可以上传 ,如果可以,client会先对文件进行切分(逻辑切分) 3、客户端请求第一个 Block上传到哪几个DataNode服务器上。 4、NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。 5、客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。 6、dn1、dn2、dn3逐级应答客户端。 7、客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答。 8、当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器。(重复执行3-7步)。 9、传输完毕之后,客户端关闭流资源,并且会告诉hdfs数据传输完毕,然后hdfs收到传输完毕就恢复元数据
-
具体概念介绍
-
Distributed FileSystem:进行抽象封装,FileSystem会利用JDK的反射机制创建一个DistributedFileSystem实例(对象),然后调用它的initialize()方法
-
逻辑切分:客户端并没有将文件真正切分,只是画了个标志线加以区分
-
写操作,上传文件,所以本地是输入流,hdfs是输出流
-
第三步有哪几个DataNode服务器上:这里指副本数,设置了几个副本,就返回几个DataNode(记住数据是存储在DataNode)我设置了三个副本,所以,返回三个;
-
同时,返回的DataNode也有一定规矩,首先第一个DataNode是距离客户端最近的,后两个是根据第一个选出,产生了两个问题,如何判断最近,以及如何根据第一个选,这个请看: 拓扑距离和机架感知.
-
第七步,packet为单位,每个64KB
-
传输Packet:dn1收到之后,一边往本地落盘,一边传给dn2,之后的dn2同理,当dn3落盘结束之后,它将成功信息发给dn2,之后dn2需要等自己成功并且收到dn3成功信息之后,将成功信息发给dn1,同理,dn1在接收到dn2成功信息并且自己落盘成功之后发给客户端,此时一个packet就成功了;注意packet不是逐个发的,是一个队列同时发的,成功了,在队列里删除掉,这样全部packet发完,第一块就传完了,接着传第二块,第二次选择的DataNode可能和第一次一样,也可能不一样
-
传输过程中几种失败可能:
1.在建立通道时失败,这样直接上传失败,直接抛异常 - 2.在传输数据过程中失败: 1).客户端传输Packet到第一个DataNode过程中失败就上传失败
- 2)dn1与dn2或者dn2与dn3之间的传输Packet失败,上传仍然进行,并且传出成功信号,因为即使这两个过程失败了,副本数就变成1了,hdfs有高容错性,副本丢失,第一个DataNode会触发自动备份,自动寻找两个DataNode
4.2 HDFS读数据流程
- 读流程
1)客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。 2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。 3)DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。 4)客户端以Packet为单位接收,先在本地缓存,然后写入目标文件。 5)下载完第一块,在重复上面2.3步下载
- JAVAWEB开发之Hibernate详解(一)——Hibernate的框架概述、开发流程、CURD操作和核心配置与API以及Hibernate日志的使用
- 学习笔记:从0开始学习大数据-5.hadoop hdfs文件读写api操作
- 2018-07-10期 HadoopHDFS客户端API操作
- 大数据-Hadoop生态(8)-HDFS的读写数据流程以及机架感知
- Java操作HDFS开发环境搭建以及HDFS的读写流程
- JAVAWEB开发之Hibernate详解(一)——Hibernate的框架概述、开发流程、CURD操作和核心配置与API以及Hibernate日志的使用
- Hadoop第4周练习—HDFS读写文件操作
- [Hadoop基础]--HDFS的读写流程和原理
- hdfs——hadoop文件读写操作
- 客户端用java api 远程操作HDFS以及远程提交MR任务(源码和异常处理
- HDFS原理解析(总体架构,读写操作流程)
- hadoop系列二:HDFS文件系统的命令及JAVA客户端API
- Hadoop HDFS的Shell操作实例
- hadoop,HDFS常用Shell操作
- HDFS写操作的整体流程概述
- Hadoop(三)HDFS读写原理与shell命令
- HBASE 代码阅读笔记-1 - PUT操作客户端主流程(基于0.96.0-hadoop2)
- Hadoop-Zookeeper环境搭建、Zookeeper的shell操作、Zookeeper的JavaAPI
- hadoop学习;hdfs操作;运行抛出权限异常: Permission denied;api查看源码方法;源码不停的向里循环;抽象类通过debug查找源码
- Hadoop Java API 操作 hdfs--1