用把数据从hdfs写入到mysql
2013-01-10 14:03
357 查看
sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里,我写一下用java程序来实现sqoop把数据从HDFS写入到MYSQL。 在接触sqoop之前,我自己写了一个传输类来实现
sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里,我写一下用java程序来实现sqoop把数据从HDFS写入到MYSQL。 在接触sqoop之前,我自己写了一个传输类来实现数据从HDFS到MYSQL。这里简单说一下时间的思想: 1、在MYSQL中创建一个参数表A,用来记录要传输的表的表名B和字段。 2、HDFS上的数据的格式和MYSQL中参数表A中B表的字段的数量一样。 3、从MYSQL的参数表A中,读取要传输的表B。把这些字段拼凑成一个insert语句,例如 ,拼凑为insert into b(column1,column2..) values(value1,value2...) 4、从HDFS相应的目录逐行读取数据,通过JDBC,把数据批量导入到MYSQL的B表中。 我现在用sqoop来代替原来传输的那个功能。先做一下准备工作: 1、hadoop的每个节点下lib文件夹中要有mysql的jar包和sqoop的jar包。 2、在HDFS的某个目录上的数据格式和MYSQL相应的表中的字段数量一致。 实现类如下: package sqoop; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.sqoop.Sqoop; import org.apache.sqoop.tool.ExportTool; /** * 用SQOOP来把数据从HDFS导入到MYSQL。 * */ public class Test { public static void main(String[] args) { List<String> generatedJarsList = new ArrayList<String>(); Configuration conf = new Configuration(); conf.set("fs.default.name", "hdfs://master:9000"); conf.set("hadoop.job.ugi", "hadooper,hadoopgroup"); conf.set("mapred.job.tracker", "master:9001"); ArrayList<String> list = new ArrayList<String>(); //定义一个list list.add("--table"); list.add("a_baat_client"); //mysql中的表。将来数据要导入到这个表中。 list.add("--export-dir"); list.add("/tmp/datathree/"); //hdfs上的目录。这个目录下的数据要导入到a_baat_client这个表中。 list.add("--connect"); list.add("jdbc:mysql://192.168.1.10:3306/report"); //mysql的链接 list.add("--username"); list.add("root"); //mysql的用户名 list.add("--password"); list.add("root"); //mysql的密码 list.add("--lines-terminated-by"); list.add("\\n"); //数据的换行符号 list.add("-m"); list.add("1");//定义mapreduce的数量。 String[] arg = new String[1]; ExportTool exporter = new ExportTool(); Sqoop sqoop = new Sqoop(exporter); sqoop.setConf(conf); arg = list.toArray(new String[0]); int result = Sqoop.runSqoop(sqoop, arg); System.out.println("res:" + result); //打印执行结果。 } } 这个导出类执行过程中,可以在浏览器中看一下http://master:50030页面。会发现导出数据也是一个把任务转换为mapreduce执行的过程。 当然,上面的java代码,也可以用命令行来实现。命令如下: bin/sqoop export --connect jdbc:mysql://192.168.1.10:3306/report \ --table a_baat_client --username root --password root \ --export-dir /tmp/datathree/ -m 1 关于sqoop把数据从HDFS导入到MYSQL就说这么多。把数据从HIVE导入到MYSQL,其实可以理解为把HIVE表所对应的HDFS路径的数据导入到MYSQL,这里就不多说了。 |
相关文章推荐
- mapreduce 将hdfs数据逐行写入mysql
- spark-python从hdfs文本数据(美国历年出生人数)统计然后把结果数据写入mysql
- MYSQL 从一张表中把数据写入另一张表中
- HDFS的数据写入过程
- Mysql 写入数据时遇到 Incorrect string value: '\\xF0\\xA3\\xAC\\xB8\\xEF\\xBF...
- Client向HDFS写入数据的过程解析
- Packet for query is too large(mysql写入数据过大)
- mysql 图片数据的写入
- Mysql 1秒200笔GPS数据批量写入优化
- 用Sqoop进行Mysql 与HDFS / Hbase的互导数据
- MySQL之按月拆分主表并按月分表写入数据提高数据查询速度
- Packet for query is too large(mysql写入数据过大)
- 多线程从MongoDB读取数据,并以固定大小写入HDFS
- mysql没有oracle 那样一次性把data buffer 数据写入磁盘
- Hadoop第一个程序,利用API向HDFS中写入数据
- JAVA写入MySQL数据提示[ERROR 1366 (HY000):错误异常解决方案
- redis和mysql的数据写入测试
- scala实战之spark源码修改(能够将DataFrame按字段增量写入mysql数据表)
- 用python将excel数据写入mysql
- 利用Flume将MySQL表数据准实时抽取到HDFS