您的位置:首页 > 运维架构

Sqoop Flume 数据采集引擎

2017-11-04 13:43 357 查看

实验准备环境

(*)Oracle版本:10g企业版


Oracle 10 g

(*)操作系统:Windows XP
链接:http://pan.baidu.com/s/1c17RVig 密码:y40j


在Oracle sh 用于下 有一张表中有92万条数据 我们可以使用Sqoop来采集它 资源自行下载

额外知识 在Oracle数据库中 sys和system用户的相同点和不同点

相同点:都有DBA的角色,都能够管理数据库
区别:sys是数据库的owner system是数据库的 administartor


Sqoop 数据交换引擎

(一)什么是 Sqoop ?

Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql、
postgresql...) 间 进 行 数 据 的 传 递 , 可 以 将 一 个 关 系 型 数 据 库 ( 例 如 :MySQL ,Oracle ,Postgres 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS的数据导进到关系型数据库中。

Sqoop 项目开始于 2009 年,最早是作为 Hadoop 的一个第三方模块存在,后来
为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop 独立成为一个 Apache 项目


(二)Sqoop 是如何工作

利用 JDBC 连接关系型数据库
安装包:sqoop-1.4.5.bin__hadoop-0.23.tar.gz


sqoop下载

(三)使用 Sqoop

在linux上配置Sqoop的环境变量

SQOOP_HOME=/root/training/sqoop-1.4.5.bin__hadoop-0.23
export SQOOP_HOME

PATH=$SQOOP_HOME/bin:$PATH
export PATH


查看sqoop中存在的命令

[root@linux111 ~]# sqoop help

Available commands:
codegen            Generate code to interact with database records
create-hive-table  Import a table definition into Hive
eval               Evaluate a SQL statement and display the results
export             Export an HDFS directory to a database table
help               List available commands
import             Import a table from a database to HDFS
import-all-tables  Import tables from a database to HDFS
job                Work with saved jobs
list-databases     List available databases on a server
list-tables        List available tables in a database
merge              Merge results of incremental imports
metastore          Run a standalone Sqoop metastore
version            Display version information
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: