您的位置：首页 > 其它

分布式文件系统KFS源码阅读与分析（一）：MetaServer元数据组织结构

2011-08-25 01:59 375 查看

KFS文件系统的MetaServer元数据管理采用的是B+树方式，下面将结合其源码，对KFS MetaServer中元数据的组织形式及有关实现细节进行分析。

1. 相关源码文件

KFS MetaServer元数据管理的代码所在目录为kfs-[version]/src/cc/meta，其中，相关的源码文件有：

（1）meta/base.h：KFS元数据metadata中各节点的基础类，包括的类：类Key、类MetaNode，它们分别代表B+树种存储的数据、所有B+树节点的公共基础信息。

（2）meta/meta.h和meta/meta.cc：封装了metadata的基本数据定义，包括：类Meta、类MetaDentry、类MetaFattr和类MetaChunkInfo，它们分别代表文件系统中的目录项、文件或目录的属性项、对于一个文件偏移（file offset）的Chunk信息。

（3）meta/kfstree.h和meta/kfstree.cc：封装了对B+树中内部节点Node的各种操作及Tree的基本操作（与文件系统无关，B+树底层的实现），如插入节点、删除节点等。

（4）meta/kfsops.cc：封装了使用B+树存储KFS文件系统，实现的相关基本操作，如创建文件、删除文件、创建目录、删除目录等（作为Tree的实现）。

（5）meta/request.h和meta/request.cc：封装了对ChunkServer或KfsClient发出的meta data请求的处理，通过Tree metatree执行相应的操作，实现对KFS文件系统各种基本操作的调用。

2. 为什么选用B+树

KFS的文件系统采用的是B+树，那么为什么选用B+树而不是B-树呢？这里做一个简单的分析：

2.1 B-树

B-树的定义：

B-树是一种平衡多路查找树，一棵m阶的B-树，或者是一颗空树，或者是满足下列特征的m叉树：

（1）树中每个节点至多有m棵字数；

（2）若根节点不是叶子结点，则至少有2棵子树；

（3）除根之外的所有非终端结点，则至少有[m/2]棵子树；

（4）所有的非终端结点中包含下列信息数据：(n, p0, k1, p1, k2, p2, ..., kn, pn)，

其中：ki为关键字，且ki<ki+1；pi为指向子树根结点的指针，且满足pi所指子树中所有结点的关键字均大于ki且小于ki+1，pn所指子树中所有结点的关键字均大于kn；

（5）所有叶子结点均在同一层。

B-树的检索：

从根结点开始，对结点内的有序关键字序列进行二分查找，如果命中，则直接结束查找过程；否则，进入查询关键字所属范围的儿子结点进行查找。重复以上过程，直到所对应的儿子指针为空，或已经是叶子结点。

B-树的特性：

（1）关键字集合分布在整颗树中；

（2）任何一个关键字出现且只出现在一个结点中；

（3）搜索有可能在非叶子结点结束；

（4）其搜索性能等价于在关键字全集内做一次二分查找；

（5）自动层次控制。

2.2 B+树

B+树的定义：

B+树也是一种平衡多路查找树，它是应文件系统所需而出的一种B-树的变型树。一颗B+树满足以下条件：

（1）每个非终端结点至多有m颗子树；

（2）除根结点外，其他每个非终端结点至少有[(m+1)/2]颗子树；

（3）根结点至少有2颗子树；

（4）有n棵子树的结点中含有n个关键字；

（5）所有的叶子结点中包含了全部关键字的信息，及指向含这些关键字记录的指针，且叶子结点本身依关键字的大小自小而大顺序链接；

（6）所有的非终端结点可以看成是索引部分，仅包含其各个子结点中的最大关键字及指向子结点的指针。

通常来说，B+树上有两个头指针，一个指向根结点，一个指向关键字最小的叶子结点。

B+树的检索：

B+树的检索方式分为两种：

（1）一种是从指向关键字最小的叶子结点的头指针开始，进行顺序查找；

（2）一种是从指向根结点的头指针开始，进行随机查找：与B-树基本相同，等价于在关键字全集做一次二分查找，区别是B+树只有达到叶子结点才命中（B-树可以在非叶子结点命中）。

B+树的特性：

（1）所有关键字都出现在叶子结点的链表中（稠密索引），且链表中的关键字恰好是有序的；

（2）检索时只有在叶子结点命中，不可能在非叶子结点命中；

（3）非叶子结点相当于是叶子结点的索引（稀疏索引），叶子结点相当于是存储（关键字）数据的数据层；

（4）更适合文件索引系统。

2.3 B+树与B-树的比较

通过对B-树和B+树的定义及特性的了解，对两者进行比较：

（1）占用空间大小方面：

B-树的非叶子节点中含有大量的关键字信息，占用的空间相对比较大；

B+树中只有叶子节点中才有关键字信息，非叶子节点并没有指向关键字具体信息的指针，占用的空间相对比较小。

（2）检索路径长短方面：

由于B+树的所有关键字都分布在叶子节点上，其他非叶子节点都是索引部分，因此树阶数（即树高）要比B-大，检索时要经过的路径就多，运算时间相对长一些；

由于B-树的关键字分布到各个节点上，相对于B+树中完全分布到叶子节点上来说，分散分布的阶数自然要小，因此B-树的树阶数要比B+小，查找要经过的路径相对比较少，运算时间相对短一些。

对于文件系统的设计来说，最关键的瓶颈在于磁盘IO操作，如果占用的磁盘空间少的话，IO操作耗时自然就少。而真正检索内存中的数据结构（如B+树、B-树）的过程中，运算时间相对于磁盘IO操作来说要小的多，即内存的检索时间不是主要的瓶颈之处。

因此，虽然对于同阶的B-树和B+树，B+树的树高和平均检索长度均大于B-树，但实际上，检索过程中，最耗时的操作是磁盘IO操作，而B-树占用的空间相对较大，IO操作时劣势明显。由于B+树的非叶子结点无记录信息，只有索引，同样大小磁盘空间就可以存放更多的索引信息，检索访盘次数反而少，速度也就比B-树快。

2.4 选择B+树

B+树比B-树更适合实际应用中操作系统的文件索引和数据库索引，原因在于：

（1）磁盘读写代价低：即使B-树的运算时间相对于B+树来说较短，但由于磁盘IO操作方面的劣势，导致其总体上效率不如B+树。

（2）查询效率更稳定：B+树中任何关键字的查找都必须经历从根结点到叶子结点，因此所有关键字查询的路径长度相同，每一个数据的查询效率相当。

3. 元数据组织结构

在KFS文件系统MetaServer元数据的实现中，有图示几种类型的B+树节点：

（1）MetaNode: 所有叶节点和内部节点的公共基础类，其中记录了不同树节点的类型信息。

（2）Node：表示内部节点，其中记录了树种内部节点的各种操作。

（3）Meta: 表示叶节点，而具体来说，不同的叶节点有：

MetaDentry: 文件目录项（Directory entry），实现从文件名到文件id的映射。

MetaFattr: 文件或目录属性，相当于KFS中的一个inode节点。

MetaChunkInfo: 对于一个文件偏移（file offset）的Chunk信息。

3.1 MetaNode

成员变量：

MetaType type;   //节点类型值
int flagbits;    //标志位

构造函数：

MetaNode(MetaType t)        //初始化type=t, flagbits=0
MetaNode(MetaType t, int f) //初始化type=t, flagbits=f

3.2 Node

成员变量：

int count;                       //孩子节点个数
Key childKey[NKEY];              //孩子的key
MetaNode *childNode[NKEY];       //孩子节点
Node *next;                      //下一个相邻节点

构造函数：

Node(int f)    //初始化MetaNode中的节点类型type=KFS_INTERNAL，flagbits=f

3.3 Meta

成员变量：

fid_t fid;        //文件fid

构造函数：

Meta(MetaType t, fid_t id)  //初始化MetaNode中的节点类型信息type=t，及自身的fid=id

3.4 MetaDentry

成员变量：

fid_t dir;      //父目录的fid
string name;    //目录项的名称
fid_t fid;      //目录项的文件id

构造函数：

MetaDentry(fid_t parent, string fname, fid_t myID)

举例说明：通过Dentry结构实现/root/1.txt的查找过程：

(1) 获取”/”的fid=2

dir=2, name=“/”,
fid=2

(2) 获取”root”的fid=8

dir=2, name=“root”,
fid=8

dir=2, name=“usr”,
fid=6

(3) 获取”1.txt”的fid=12

dir=8,
name=”1.txt”, fid=12

dir=8, name=”2.txt”,
fid=13

dir=8, name=”3.txt”,
fid=14

由以上查找过程可知，/root/1.txt的fid为12。

3.5 MetaFattr

成员变量：

FileType type;          //类型（文件或目录）
int16_t numReplicas;    //一个文件要求的备份数
struct timeval mtime;   //修改时间
struct timeval ctime;   //属性变更时间
struct timeval crtime;  //创建时间
longlong chunkcount;   //chunk数目
off_t filesize;         //文件大小

构造函数：

MetaFattr(FileType t, fid_t id, int16_t n)
MetaFattr(FileType t, fid_t id, struct timeval mt, struct timeval ct, struct timeval crt, longlong c, int16_t n)

3.6 MetaChunkInfo

成员变量：

chunkOff_t offset;  //chunk在文件中的偏移
chunkId_t chunkId;  //chunk的标识符id
seq_t chunkVersion; //chunk的版本号

构造函数：

MetaChunkInfo(fid_t file, chunkOff_t off, chunkId_t id, seq_t v)
MetaChunkInfo(fid_t file, chunkOff_t off, chunkId_t id, seq_t v, CLVector &m)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航