您的位置:首页 > 其它

HBase的数据迁移及importTsv功能

2017-08-17 18:59 239 查看

一、数据迁移场景举例

         1. HBase集群装好了,若需要往表中装数据;

         2. 数据的备份,如测试集群往生产集群上迁移。

二、几种HBase数据导入方式

         1. 使用HBase Put API:例如MapReduce也是使用Put API;

         2. 使用HBase批量加载工具;

         3.自定义的MapReduce job

        这三种方式都涉及到Put内置,大多数数据迁移场景都涉及到数据的导入(import),从存在的RDBMS导入到HBase中去,大多数简单直接的方法是直接获取数据,使用单线程,这种效果非常慢,其实可以写多线程完成。

三、importTsv功能

        ImportTsv是HBase官方提供的基于MapReduce的批量数据导入工具。同时,ImportTsv是HBase提供的一个命令行工具,可以将存储在HDFS上的自定义分隔符(默认\t)的数据文件,通过一条命令方便的导入到HBase表中,对于大数据量导入非常有用。

        那么,如何使用ImportTsv呢?

        第一步,建立student.tsv文件,如下图:



        第二步,编辑student.tsv文件,添加以下内容,并保存,如下图:



        第三步,创建一个目录,如下图:



        第四步,上传文件,如下图:



        第五步,建表,在HBase中创建一个名为student的表,列簇为info。

        第六步,开始运行MapReduce,命令如下:



        第七步,查看student表格结果,如下图:



        通过以上步骤可以将一个tsv文件的数据导入到hbase的表格中。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息