您的位置：首页 > 大数据 > Hadoop

浅读HDFS文件上传部分的过程源码

2016-08-30 09:39 316 查看

FileSystem类的继承结构

FileSystem的文件注释：

An abstract base class for a fairly generic filesystem. It may be implemented as a distributed filesystem, or as a "local" one that reflects the locally-connected disk.

The local version exists for small Hadoop instances and for testing. All user code that may potentially use the Hadoop Distributed File System should be written to use a FileSystem object.

The Hadoop DFS is a multi-machine system that appears as a single disk. It's useful because of its fault tolerance and potentially very large capacity. The local implementation is LocalFileSystem and distributed implementation is DistributedFileSystem.
FileSystem的文件译文：

一个通用文件系统的抽象基类。可以被分布式文件系统或者本地文件系统实现；如果分布式文件系统实现连接到分布式文件系统。本地文件系统实现的话，将会连接本地磁盘。

本地版本的存在是为了小规模hadoop实例或者测试用。所有的用户代码如果需要使用hdfs的都需要使用FileSystem对象。hdfs是将多个机器组成近视看做是一块磁盘。它的高容错和强大的存储能力是非常有用的。FileSystem的本地实现是LocalFileSystem，分布式实现是DistributedFileSystem。

上传文件源码过程：

第一步：创建配置实例，然后获取FileSystem实例。

第一个红色框：如果scheme和authority都为空的话，在if条件语句中get函数中最终调用

返回本地文件系统实例，即为：LocalFileSystem实例。（DEFAULT_FS = file:///可以看出是本地文件系统）

第二个红色框：如果scheme的值为hdfs，则根据authority的值来进行创建DistributedFileSystem实例。

第二步：FSDataOutputStream是hdfs文件系统的输出流。

底层调用：

f是hdfs文件系统的文件路径，overwrite文件存在是否覆盖重写。

第三步：创建本地文件输入流，将本地文件输入流复制到hdfs文件的输出流中。IOUtils是hadoop的一个I/O工具类（自行查看文档，不再介绍）。

第四步：关闭文件流即可。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航