您的位置:首页 > 数据库 > SQL

sqoop-1.4.4导入导出mysql数据到hadoop2.2.0 HDSF集群

2016-10-23 18:08 976 查看


    Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS、Hive、HBase)与传统关系数据库(MySql、Oracle等)间进行数据传递工作。Sqoop最早是作为Hadoop的一个第三方模块存在,后来被独立成为了一个Apache项目。除了关系数据库外,对于某些NoSQL数据库,Sqoop也提供了连接器。

一、Sqoop基础知识

  Sqoop项目开始于2009年,可以在Hadoop相关存储与传统关系数据库之间进行数据导入导出工作。Sqoop会开启多个MapReduce任务来并行进行数据导入导出工作,提高工作效率。



二.sqoop安装

   安装在一台节点上就可以了,我选择在机器hadoop2上安装,在安装前请确保已经搭建了hadoop环境。

  1.sqoop下载 :http://www.apache.org/dyn/closer.lua/sqoop/

  2.  上传

  3. 安装

tar sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz
  4. 配置环境变量
vim /etc/profile
export SQOOP_HOME=/usr/cloud/sqoop/sqoop-1.4.4
export $PATH:JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SQOOP_HOME/bin

三、mysql安装

     1 .上传MySQL-server-5.5.31-2.el6.i686.rpm,下载地址http://dev.mysql.com/downloads/mysql/

    2.安装

      

#以root用户登录配置mysql metastore
#检查是否已经安装mysql
rpm -qa | grep mysql
#删除除mysql-libs-5.1.66-2.el6_3.i686
rpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodeps
#安装mysql服务端
rpm -ivh MySQL-server-5.1.73-1.glibc23.i386.rpm
#安装mysql客户端
rpm -ivh MySQL-client-5.1.73-1.glibc23.i386.rpm
修改mysql的密码(注意:删除匿名用户,允许用户远程连接)
/usr/bin/mysql_secure_installation

登陆mysql
mysql -uroot -p

#mysql服务启动命令
/etc/init.d/mysql start
#mysql服务停止命令
/etc/init.d/mysql stop
3.配置mysql远程连接
GRANT ALL PRIVILEGES ON hadoop.* TO 'root'@'192.168.31.20' IDENTIFIED BY 'hadoop' WITH GRANT OPTION;
FLUSH PRIVILEGES;

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'hadoop' WITH GRANT OPTION;
FLUSH PRIVILEGES;
4.建表
create table person(id INT ,name VARCHAR(100),age INT );
#初始化数据
insert person(id,name,age) values(1,"zhangsan",20);
insert person(id,name,age) values(2,"lisi",40);
insert person(id,name,age) values(3,"wangwu",30);

四,hdfs导入mysql数据  
sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop  --table person --columns 'id, name, age'

#指定输出路径、指定数据分隔符
sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop  --table person --target-dir '/sqoop/std' --fields-terminated-by '\t'

#指定Map数量 -m
sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop  --table person --target-dir '/sqoop/std1' --fields-terminated-by '\t' -m 2

#增加where条件, 注意:条件必须用引号引起来
sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop  --table person --where 'id>2' --target-dir '/sqoop/std2'

#增加query语句(使用 \ 将语句换行)
sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop \
--query 'SELECT * FROM person where id > 2 AND $CONDITIONS' --split-by person.id --target-dir '/sqoop/std3'

特别强调:如果使用--query这个命令的时候,需要注意的是where后面的参数,AND $CONDITIONS这个参数必须加上
而且存在单引号与双引号的区别,如果--query后面使用的是双引号,那么需要在$CONDITIONS前加上\即\$CONDITIONS
如果设置map数量为1个时即-m 1,不用加上--split-by ${tablename.column},否则需要加上

#导入hdfs后数据校验:
hadoop fs -ls /
五:将HDFS上的数据导出到数据库中

sqoop export --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop --export-dir '/std3' --table person1 -m 1 --fields-terminated-by ','
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: