您的位置:首页 > 其它

最为关心的问题,hbase查询一条数据的过程.

2013-03-25 16:17 435 查看


HBase中的Client如何路由到正确的RegionServer

我们来仔细分析一下这个结构,每条Row记录了一个Region的信息。

首先是RowKey,RowKey由三部分组成:TableName, StartKey 和 TimeStamp。RowKey存储的内容我们又称之为Region的Name。哦,还记得吗?我们在前面的文章中提到的,用来存放Region的文件夹的名字是RegionName的Hash值,因为RegionName可能包含某些非法字符。现在你应该知道为什么RegionName会包含非法字符了吧,因为StartKey是被允许包含任何值的。将组成RowKey的三个部分用逗号连接就构成了整个RowKey,这里TimeStamp使用十进制的数字字符串来表示的。这里有一个RowKey的例子:

Table1,RK10000,12345678

然后是表中最主要的Family:info,info里面包含三个Column:regioninfo, server, serverstartcode。其中regioninfo就是Region的详细信息,包括StartKey, EndKey 以及每个Family的信息等等。server存储的就是管理这个Region的RegionServer的地址。

所以当Region被拆分、合并或者重新分配的时候,都需要来修改这张表的内容。

到目前为止我们已经学习了必须的背景知识,下面我们要正式开始介绍Client端寻找RegionServer的整个过程。我打算用一个假想的例子来学习这个过程,因此我先构建了假想的-ROOT-表和.META.表。

我们先来看.META.表,假设HBase中只有两张用户表:Table1和Table2,Table1非常大,被划分成了很多Region,因此在.META.表中有很多条Row用来记录这些Region。而Table2很小,只是被划分成了两个Region,因此在.META.中只有两条Row用来记录。这个表的内容看上去是这个样子的:

.META.




 


 


 

这么一来Client端就需要先去访问-ROOT-表。所以需要知道管理-ROOT-表的RegionServer的地址。这个地址被存在ZooKeeper中。默认的路径是:

/hbase/root-region-server

等等,如果-ROOT-表太大了,要被分成多个Region怎么办?嘿嘿,HBase认为-ROOT-表不会大到那个程度,因此-ROOT-只会有一个Region,这个Region的信息也是被存在HBase内部的。

现在让我们从头来过,我们要查询Table2中RowKey是RK10000的数据。整个路由过程的主要代码在org.apache.hadoop.hbase.client.HConnectionManager.TableServers中:

private HRegionLocation locateRegion(final byte [] tableName,
 

final byte [] row, boolean useCache)

throws IOException{
 

if (tableName == null || tableName.length == 0) {
 

throw new IllegalArgumentException(
 

“table name cannot be null or zero length”);
 

}
 

if (Bytes.equals(tableName, ROOT_TABLE_NAME)) {
 

synchronized (rootRegionLock) {
 

// This block guards against two threads trying to find the root
 

// region at the same time. One will go do the find while the
 

// second waits. The second thread will not do find.
 

if (!useCache || rootRegionLocation == null) {
 

this.rootRegionLocation = locateRootRegion();
 

}
 

return this.rootRegionLocation;
 

}
 

} else if (Bytes.equals(tableName, META_TABLE_NAME)) {
 

return locateRegionInMeta(ROOT_TABLE_NAME, tableName, row, useCache,

metaRegionLock);
 

} else {
 

// Region not in the cache – have to go to the meta RS
 

return locateRegionInMeta(META_TABLE_NAME, tableName, row, useCache, userRegionLock);
 

}
 

}

这是一个递归调用的过程:

获取Table2,RowKey为RK10000的RegionServer
 

=>
 

获取.META.,RowKey为Table2,RK10000, 99999999999999的RegionServer
 

=>
 

获取-ROOT-,RowKey为.META.,Table2,RK10000,99999999999999,99999999999999的RegionServer
 

=>
 

获取-ROOT-的RegionServer
 

=>
 

从ZooKeeper得到-ROOT-的RegionServer
 

=>
 

从-ROOT-表中查到RowKey最接近(小于)

.META.,Table2,RK10000,99999999999999,99999999999999的一条Row,并得到.META.的RegionServer
 

=>
 

从.META.表中查到RowKey最接近(小于)Table2,RK10000, 99999999999999的一条Row,并得到Table2的RegionServer
 

=>
 

从Table2中查到RK10000的Row

到此为止Client完成了路由RegionServer的整个过程,在整个过程中使用了添加“99999999999999”后缀并查找最接近(小于)RowKey的方法。对于这个方法大家可以仔细揣摩一下,并不是很难理解。

最后要提醒大家注意两件事情:
在整个路由过程中并没有涉及到MasterServer,也就是说HBase日常的数据操作并不需要MasterServer,不会造成MasterServer的负担。
Client端并不会每次数据操作都做这整个路由过程,很多数据都会被Cache起来。至于如何Cache,则不在本文的讨论范围之内。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: