您的位置：首页 > 数据库 > SQL

sqoop-1.4.4导入导出mysql数据到hadoop2.2.0 HDSF集群

2016-10-23 18:08 976 查看

　　 Sqoop是一款开源的工具，主要用于在Hadoop相关存储（HDFS、Hive、HBase）与传统关系数据库（MySql、Oracle等）间进行数据传递工作。Sqoop最早是作为Hadoop的一个第三方模块存在，后来被独立成为了一个Apache项目。除了关系数据库外，对于某些NoSQL数据库，Sqoop也提供了连接器。

一、Sqoop基础知识

　　Sqoop项目开始于2009年，可以在Hadoop相关存储与传统关系数据库之间进行数据导入导出工作。Sqoop会开启多个MapReduce任务来并行进行数据导入导出工作，提高工作效率。

二.sqoop安装

安装在一台节点上就可以了，我选择在机器hadoop2上安装,在安装前请确保已经搭建了hadoop环境。

1.sqoop下载：http://www.apache.org/dyn/closer.lua/sqoop/

2. 上传

3. 安装

tar sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz

4. 配置环境变量

vim /etc/profile
export SQOOP_HOME=/usr/cloud/sqoop/sqoop-1.4.4
export $PATH:JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SQOOP_HOME/bin

三、mysql安装

     1 .上传MySQL-server-5.5.31-2.el6.i686.rpm，下载地址http://dev.mysql.com/downloads/mysql/

    2.安装

#以root用户登录配置mysql metastore
#检查是否已经安装mysql
rpm -qa | grep mysql
#删除除mysql-libs-5.1.66-2.el6_3.i686
rpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodeps
#安装mysql服务端
rpm -ivh MySQL-server-5.1.73-1.glibc23.i386.rpm
#安装mysql客户端
rpm -ivh MySQL-client-5.1.73-1.glibc23.i386.rpm
修改mysql的密码（注意：删除匿名用户，允许用户远程连接）
/usr/bin/mysql_secure_installation

登陆mysql
mysql -uroot -p

#mysql服务启动命令
/etc/init.d/mysql start
#mysql服务停止命令
/etc/init.d/mysql stop

3.配置mysql远程连接

GRANT ALL PRIVILEGES ON hadoop.* TO 'root'@'192.168.31.20' IDENTIFIED BY 'hadoop' WITH GRANT OPTION;
FLUSH PRIVILEGES;

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'hadoop' WITH GRANT OPTION;
FLUSH PRIVILEGES;

4.建表

create table person(id INT ,name VARCHAR(100),age INT );
#初始化数据
insert person(id,name,age) values(1,"zhangsan",20);
insert person(id,name,age) values(2,"lisi",40);
insert person(id,name,age) values(3,"wangwu",30);

四，hdfs导入mysql数据

sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop  --table person --columns 'id, name, age'

#指定输出路径、指定数据分隔符
sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop  --table person --target-dir '/sqoop/std' --fields-terminated-by '\t'

#指定Map数量 -m
sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop  --table person --target-dir '/sqoop/std1' --fields-terminated-by '\t' -m 2

#增加where条件, 注意：条件必须用引号引起来
sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop  --table person --where 'id>2' --target-dir '/sqoop/std2'

#增加query语句(使用 \ 将语句换行)
sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop \
--query 'SELECT * FROM person where id > 2 AND $CONDITIONS' --split-by person.id --target-dir '/sqoop/std3'

特别强调：如果使用--query这个命令的时候，需要注意的是where后面的参数，AND $CONDITIONS这个参数必须加上
而且存在单引号与双引号的区别，如果--query后面使用的是双引号，那么需要在$CONDITIONS前加上\即\$CONDITIONS
如果设置map数量为1个时即-m 1，不用加上--split-by ${tablename.column}，否则需要加上

#导入hdfs后数据校验：
hadoop fs -ls /

五：将HDFS上的数据导出到数据库中

sqoop export --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop --export-dir '/std3' --table person1 -m 1 --fields-terminated-by ','

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航