您的位置:首页 > 其它

spark2.2.0源码学习过程记录:Day9

2017-09-09 18:13 239 查看
由于工作原因,今天需要学习一下FileSystem等类

类FileSystem
通用的文件系统,他主要有两个实现LocalFileSystem、DistributedFileSystem,分别是本地文件系统和hdfs文件系统
使用Cache类来存放已经创建过的FileSystem以复用他们
使用statisticsTable来统计每个FileSystem类的统计信息(文件系统中有多少读、写、等等的统计数据)
initialize方法在创建FileSystem后执行
get方法用于取得具体的FileSystem实现,首先根据uri的schema获取,如果没有则从Conf里取默认实现,配置在fs.defaultFS配置项中
具体创建FileSystem的方法为createFileSystem该方法首先调用getFileSystemClass取得具体的FileSystem实现类名,然后利用反射创建实例,并调用initialize方法进行初始化。如果使用Cache缓存,则这个过程会在Cache类的get方法中调用
getFileSystemClass这个类首先判断所有的实现类是否已经加载,如果没加载则加载到内存中,存放于map中,用schema作为key,然后再从map中取出具体的实现类的name
另外提供了一些增删改查的方法

小细节
ServiceLoader.load(FileSystem.class)方法
在loadFileSystems方法中,调用了ServiceLoader.load方法,这个方法可以取得所有继承了FileSystem类(或实现某个接口)的类

类DistributedFileSystem
主要是包装了一个DFSClient,用来和hdfs交互
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: