HBase数据迁移(3)-自己编写MapReduce Job导入数据
2016-04-13 17:55
267 查看
HBase数据迁移(3)-自己编写MapReduce Job导入数据
2013/04/16 | 分类: 技术架构 | 1条评论 | 标签: HBASE
分享到:13
本文作者: ImportNew - 陈
晨 未经许可,禁止转载!
本篇文章是对数据合并的系列文章之三(共三篇),针对的情景模式就是将现有的各种类型的数据库或数据文件中的数据转入至HBase中。
系列之一 《HBase数据迁移(1)- 通过单个客户端导入MySQL数据》
系列之二 《HBase数据迁移(1)- 使用bulk load 工具从TSV文件中导入数据》
尽管在将文本文件加载入HBase时importtsv工具十分高效,但在许多情况下为了完全控制整个加载过程,你可能更想自己编写MapReduce Job向HBase导入数据。例如在你希望加载其他格式文件时不能使用importtsv工具。
HBase提供TableOutputFormat 用于在MapReduce Job中向HBase的表中写入数据。你也可以使用HFileOutputFormat 类在MapReduce Job中直接生成HBase自有格式文件HFile,之后使用上一篇(迁移2)中提到的completebulkload 工具加载至运行的HBase集群中。在本文中,我们将详细解释如何编写自己的MapReduce Job来加载数据。我们会先介绍如何使用TableOutputFormat,在更多章节中介绍在MapReduce Job中直接生成HBase自有格式文件HFile。
准备
我们本文中使用 “美国国家海洋和大气管理局 1981-2010气候平均值”的公共数据集合。访问http://www1.ncdc.noaa.gov/pub/data/normals/1981-2010/。 在目录 products | hourly 下的小时温度数据(可以在上述链接页面中找到)。下载hly-temp-normal.txt文件。对于下载的数据文件无需进行格式处理,我们将使用MapReduce直接读取原始数据。
我们假设您的环境已经可以在HBase上运行MapReduce。若还不行,你可以参考一下之前的文章(迁移1、迁移2)。
如何实施
1.将原始数据从本地文件系统拷贝进HDFS:
运行原理
为了运行MapReduce Job,我们首先在createSubmittableJob()方法中构建一个Job实例。实例建立后,我们对其设置了输入路径,输入格式以及mapper类。之后,我们调用了TableMapReduceUtil.initTableReducerJob() 对job进行适当配置。包括,加入HBase配置,设置TableOutputFormat,以及job运行需要的一些依赖的添加。在HBase上编写MapReduce程序时,TableMapReduceUtil 是一个很有用的工具类。
主函数中调用 job.waitForCompletion() 能够将Job提交到MapReduce框架中,直到运行完成才退出。运行的Job将会读取输入路径下的所有文件,并且将每行都传入到mapper类(HourlyImporter)。
在map方法中,转换行数据并生成row key,建立Put对象,通过Put.add()方法将转换后的数据添加到对应的列中。最终调用context.write()方法将数据写入HBase表中。本例中无需reduce阶段。
如你所见,编写自定义的MapReduce Job来向HBase插入数据是很简单的。程序与直接在单台客户端使用HBase API类似。当面对海量数据时,我们建议使用MapReduce来向HBase中导入数据。
其他
使用自定义的MapReduce Job来向HBase加载数据在大部分情况下都是合理的。但是,如果你的数据是极大量级的,上述方案不能很好处理时。还有其他方式能够更好的处理数据合并问题。
在MapReduce中生成HFile
除了直接将数据写入HBase表,我们还可以在MapReduce Job中直接生成HBase自有格式HFile,然后使用completebulkload 工具将文件加载进集群中。这个方案将比使用TableOutputFormat API更加节省CPU与网络资源:
1.修改Job配置。要生成HFile文件,找到createSubmittableJob()的下面两行:
在步骤2中的job运行完成之后,自有HFile格式文件会生成在我们指定的输出路径。文件在列族目录2-3/n之下,将会使用completebulkload 加载到HBase集群中。
在MapReduce Job执行过程中,如果你在浏览器中打开HBase的管理界面,会发现HBase没有发出任何请求。这表明这些数据不是直接写入HBase的表中。
影响数据合并的重要配置
如果你在MapReduce Job使用TableOutputFormat 类将数据直接写入HBase表中,是一个十分繁重的写操作。尽管HBase是设计用于快速处理写操作,但下面的这些还是你可能需要调整的重要的配置:
JVM的堆栈和GC设置
域服务器处理数量
最大的域文件数量
内存大小
更新块设置
你需要了解HBase架构的基本知识来理解这些配置如何影响HBase的写性能。以后我们会进行详细的描述。
Hadoop和HBase会生成若干日志。当集群中的MapReduce Job加载数据时存在某些瓶颈或障碍时,检查日志可以给你一些提示。下面是一些比较重要的日志:
Hadoop/HBase/ZooKeeper的守护进程的GC日志
HMaster守护进程的日志
在将数据转移至HBase之前预先搭建域
HBase的每行数据都归属一个特定的域中。一个域中包含了一定范围内的排序号的HBase的数据行。域是由域服务器发布和管理的。
当我们在HBase中建立一个表后,该表会在一个单独的域启动。所有插入该表的数据都会首先进入这个域中。数据持续插入,当到达一个极限之后,域会被分为两份。称之为域的分离。分离的域会分布到其他域服务器上,以达到集群中的负载能够均衡。
如你所想,若我们能够将表初始化在预先建好的域上,使用合适的算法,数据加载的负载会在整个集群中平衡,并且加快了数据加载的速度。
我们将描述如何用预先建好的域来建立一个表。
准备
登入HBase的客户端节点
如何实施
在客户端节点上执行如下命令:
命令行调用了RegionSplitter 类,并且附带如下参数:
-c 10—用预先分割的10个域来建立这个表
-f n—建立一个名叫n的列族
hly_temp2— 表名
在浏览器中打开HBase管理界面,在用户表中点击hly_temp2,你可以看到预先建立的10个域。
RegionSplitter 是HBase提供的一个工具类。使用RegionSplitter 你可以做下面这些事情:
使用具体数量的预建域来建立一个表。
能够将一个已存在的表进行分离域。
使用自定义算法来分离域。
在上文中使用自定义MapReduce导入数据时,也许你原本认为数据写入应该是分布在集群中所有的域中,但实际不是。在管理页上可以看到,在MapReduce Job的执行期间所有的请求都发送至相同的服务器。
这是因为默认的分离算法(MD5StringSplit)不是很适合我们的情况。我们所有的数据都发送至相同集群,因此所有的API请求都发送至域所在的域服务器中。我们需要提供自定义的算法来适当的分离域。
预分离的域也能够对生成自有格式HFile文件的的MapReduce Job产生影响。运行上文中的MapReduce Job,对hly_temp2表使用生成HFile文件的选项。如下图所示,你可以发现MapReduce Job的reduce数量从原本的1到10了,这就是预搭建域的数量:
这是因为Job中reduce的数量是基于目标表的域数量。
若reduce数量增加,通常意味加载动作分布到多个服务器上面,所以job的运行速度会更快。
英文原文摘自:《HBase Administration Cookbook》 编译:ImportNew - 陈晨
相关文章推荐
- 经典的Paxos算法
- Docker入门--简单使用--RHEL7.2
- RabbitMQ安装
- 【原创】k8s源码分析-----kubelet(8)pod管理
- haproxy 超时自动重发
- 个人知识点总结——Java并发
- 浏览器全屏
- 访问元素的尺寸和坐标
- haproxy 超时自动重发
- haproxy 超时自动重发
- 图片BlendMode 样式
- Java代码优化-在某种情况下避免Map的containsKey方法的使用
- 解决Python UnicodeDecodeError: ‘ascii’ codec can’t decode
- iOS-UIView坐标系转换-convertRect toview
- Android NDK编译系统
- DedeCms 5.7后台去除版权及去除广告链操作详解
- 笔记
- Android实现对图片的缩放、剪切、旋转、存储
- Unity+NGUI性能优化方法总结
- Android 实现不同Launcher 桌面角标的坑(Badge)