您的位置:首页 > 运维架构

数据迁移工具sqoop简介

2014-07-09 10:19 1021 查看
注:以下资料参考迪伦老师整理
一 sqoop是什么?

Sqoop是一款开源的工具,Sqoop
即 SQL to Hadoop ,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,发展至今主要演化了二大版本,Sqoop1和Sqoop2。

二 为什么选择Sqoop?

1,高效可控的利用资源,可以指定任务并行度,指定超时时间;

2,数据类型映射与转化,可自动进行,用户也可自定义;

3,支持多种主流数据库,MySQL,Oracle,SQL Server,DB2等。


Sqoop1和Sqoop2区别


1,两个不同的版本,完全不兼容;

2,版本号划分区别 Apache:1.4.x,1.99.x

CDH: sqoop-1.4.3-cdh4,sqoop2-1.99.2-cdh4.5.0

3,sqoop2比sqoop1的改进



(1)引入sqoop server,集中化管理connector等;
(2)多种访问方式:CLI,Web UI,REST API;
(3) 引入基于角色 的安全机制。

4,sqoop2和sqoop1架构比较








5 sqoop1与sqoop2的优缺点

sqoop1优点:架构部署简单。

sqoop2优点:多种交互方式,命令行,web UI,rest API,conncetor集中化管理,所有的链接安装在sqoop server上,完善权限管理机制,connector规范化,仅仅负责数据的读写。

sqoop1缺点:命令行方式容易出错,格式紧耦合,无法支持所有数据类型,安全机制不够完善,例如密码暴漏;

安装需要root权限,connector必须符合JDBC模型。

sqoop2缺点:架构稍复杂,配置部署更繁琐。

稍后将记录Sqoop2的安装和使用!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: