您的位置:首页 > 其它

ETL工具kettle的使用,基础--1 (最基本的输入输出)

2018-08-17 17:14 841 查看
直接上干活,不扯淡

我使用的kettle是6.1版本的,有需要的朋友可以到:https://sourceforge.net/projects/pentaho/files/Data%20Integration/6.1/pdi-ce-6.1.0.1-196.zip/download#,
下载,这是官方下载链接,使用的时候需要事先安装jdk,如果安装了多个jdk,想指定jdk请在环境变量中加PENTAHO_JAVA_HOME,值就是你所指定的jdk的安装路径



下载后直接解压,双击打开,执行spoon.bat(windows系统)
安装完成后咱们开始进行使用
一.创建转换
点击程序左上角的'文件'-'新建'-'转换'(这里有两个概念要注意,就是转换,作业,一个作业是由很多的转换组成的,这里先主要讲解转换),如图



二.输入(使用数据库的表输入)
点击程序左边的输入(不是input),鼠标左键按着表输入不动拖到新建的转换内





双击表输入可以看到对数据库链接的配置(新建,编辑)



如果相对现有的链接进行编辑那就点击编辑,新建的话就新建,这里主要将新建,点击新建后



按照你的实际需要自己填写,数据表空间和索引表空间不用填,当数据库是oracle时,数据库名称填写的是数据库的sid,不是服务名,需要注意,填写完成后可以点击测试进行测试,如果报了jdbc驱动类的错,对lib文件夹中的jar包进行替换/修改就好;
然后根据你的需要正常写sql语句就好,(语句末尾不用加;号)
三.表输出
和表输入一样,在程序左边的输出中找到表输出,拖到右边
首先将两者连起来,记住箭头从输入指向输出,鼠标左键单点表输入,然后按着shift不要动,鼠标左键点着不动从表输入移动到表输出,效果如图

,然后放开

,注意到没,线条的颜色变化了
然后双击表输出,

,同样先选择个数据链接,然后写表名,这里有几个选项给大家大致讲解下,从上往下;'目标模式':主要用来填用户名的,当本用户需要访问同一个sid下的另一个用户时可以填,'提交记录数量':一般默认就好,意思就是回多少条数据向表提交一次,很多情况下大的数值多有助于提高速度,建议100-10000之间;'裁剪表':这个轻易不要选择,千万注意,因为选了这个的时候每次执行转换就会对表做truncate操作,后果有可能很严重,千万注意;'指定数据库字段':当你前一个步骤的字段包含在目标表内时可以不选,但实际生产过程中这种情况很少,你就勾选了吧;
主选项中的选项这里先不细说,只和大家说下'使用批量插入',勾选之后有助于提高速度,但数据有可能会丢,不建议勾选;

当你勾选了''指定数据库字段'后就可以手工配置字段了



可以先点击获取字段,就会将所有的前面步骤中的所有字段列出来在下面展示出来,流字段代表的是这个任务的字段,表字段才是需要输入的表的字段,往往展示的流字段并不是所需要的字段,需要做一定的修改,比如删除,选中所在的行,按delete键就好,右面的表字段也好修改,需要做好对照,比如表输入中的a字段对应表输出的b字段,不要搞错;
配置好之后报错,点击

,这样就可一运行了;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  输入 输出 连接