您的位置：首页 > 其它

Kettle批量操作流程使用（一）---单个数据源多表批量操作

2018-02-11 15:22 274 查看

最近在工作上用到了kettle，目前这个开源的ETl工具相对来说比较火，用做数据抽取清洗工作很方便也很快捷。当然也还有不少的问题，比如使用过程中会发生闪退（测试了几个版本都存在），还有建好的Job和Transfer保存文件，然后再次打开的时候都是空白。抛开这些问题暂时不说，试用了一段时间以后，确实是解决了很多很大的问题。
在使用kettle之前，自己生产了一个任务调度系统去完成ETl工作，不过使用起来还比较麻烦，对于批量的表，批量的数据源导入扩展性不是很好。而现在kettle的功能完全能满足我们目前的任务需求，同时kettle目前这么火没有理由不去接触kettle。
我们的需求是这样，目前我们的业务系统在线上部署了1000多个独立用户节点，而这1000多个节点的数据表结构基本上都相同，因此我们想要在kettle完成的一个工作就是，编写一个流程完成1000多个用户节点，1000多张表的数据抽取。如果一个表维护一个任务，那总共要维护1000*1000个任务，如果一个用户节点维护一个任务，那总共要维护1000多个任务。而基于各个节点的业务表结构基本一样这个特点，我们想要的是只维护一个任务，完成1000多个用户节点和1000多个表的数据抽取。基于这个需求，我们分三个步骤完成了前期调研测试。在此将三个步骤测试过程和结果放在这里，期待高手能给出更好的解决思路和方法。本实验测试环境的源数据库：Postgres，目标数据库：Postgres（正式环境将采用GreenPlum）
（1）单个数据源多表批量操作：每次只连接一个数据源，把表名作为变量，维护一个任务抽取一个用户节点的所有数据
（2）多个数据源单标批量操作：动态链接多个数据源，每个数据源只对一个表做数据抽取
（3）多个数据源多表批量操作：动态链接多个数据源，每个数据源所有表做数据抽取
下面是单个数据源多表批量操作：

1.1 新建获取表名Transfer
1）新建Transfer所需的三个步骤分别是表输入、字段选择、复制记录到结果，并保存到文件：getTables.ktr如下图所示：