开源ETL工具kettle--数据迁移
2014-06-11 11:04
477 查看
背景
由于项目的需求,需要将数据从Oracle迁移到MSSQL,不是简单的数据复制,而是表结构和字段名都不一样,甚至需要处理编码规范不一致的情况,如下图所示注意:Oracle和MSSQL中的同名表的字段名是不相同的
如果要是采用手工SQL语句操作的话会很麻烦,需要考虑
Oracle和MSSQL SQL语法的差异
数据从抓取--转化--加载迁移的过程安排
字段的映射
外键的约束
目的表是否为空
等等许多问题
而这些问题对于kettle来说都不叫事,下面就为大家介绍如何使用强大的kettle实现数据的迁移
实战
Kettle翻译成中文是“水壶”,这个名字很形象,不管你向水壶当中添加了哪些液体或者可溶物质从壶嘴里面出来的都是均匀统一的液体。对于数据加载就是:不管数据源采用什么样的格式,Excel、datatable、纯文本或者是xml,kettle都能转化成统一的格式进行处理,并且能够更具用户的需要导出不同的格式下面我们就用kettle来解决上述问题
首先介绍一下kettle的两个工作单元:transformation和job
transformation:实现数据的转化
job:对transformation根据依赖关系组织执行顺序,还可以对job的执行进行条件判断和预处理,用户还可以设
置job的执行时间,比如每天的9:00开始执行job,这和持续构建中的job意思一样。
看一下这款神奇的软件长的什么样子
首先我们创建一个transformation,命名:tr_stu_and_class,如下图所示,目的是先将学生和班级的信息从Oracle迁移到mssql
然后创建第二个transformation,命名tr_stuclasslink,如下图所示,目的是将学生和班级的关系从oracle迁移到mssql
因为第三张关系表TB_STUCLASSLINK和TB_STUDENT、TB_CLASS存在外键依赖关系,所以必须先执行tr_stu_and_class再执行tr_stuclasslink。所以我们需要一个job(命名jb_orcl2mssql)来组织他们的执行顺序,如下图所示
接下来运行job就可以在瞬间实现数据迁移
总结
在transformation中可以自定义字段的映射关系(如从oracle表中的哪一列迁移到mssql表中的哪一列),可以指定迁移哪些列利用图形化的模块化的方式,更加高效和直观
如果是大批量复杂的数据迁移,使用kettle可以更好的组织数据迁移
创建的transformation和job都会被保存起来,什么时候需要迁移数据,点一下按钮就ok啦
怎么样是不是很简单很强大
补充
kettle是开源的
kettle几乎支持所有数据库、Excel和xml等常见的数据格式的迁移转换。你能想到的它几乎都支持
数据迁移只是kettle功能中很小的一部分,kettle不仅是ETL工具更是强大的BI工具,有兴趣的童鞋们可以研究一下
附下载地址
http://sourceforge.net/projects/pentaho/files/Data%20Integration/5.0.1-stable/pdi-ce-5.0.1.A-stable.zip/download相关文章推荐
- 开源ETL工具kettle--数据迁移
- 开源ETL工具kettle系列之常见问题
- 开源ETL工具 Pentaho Kettle
- 开源作业调度工具实现开源的Datax、Sqoop、Kettle等ETL工具的作业批量自动化调度
- 开源ETL工具kettle系列之增量更新设计
- 开源ETL工具kettle系列之常见问题
- Sqool与kettle开源的ETL工具
- 开源ETL 工具 Kettle使用
- 开源ETL工具 Kettle
- 开源作业调度工具实现开源的Datax、Sqoop、Kettle等ETL工具的作业批量自动化调度
- 开源ETL工具kettle系列之动态转换
- 数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )
- 开源ETL工具kettle<转>
- 开源作业调度工具实现开源的Datax、Sqoop、Kettle等ETL工具的作业批量自动化调度
- 数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )
- 开源ETL工具kettle系列之常见问题
- 开源ETL工具kettle系列之建立缓慢增长维
- 开源ETL工具kettle系列之常见问题(转载)(
- 开源ETL工具kettle系列
- 开源ETL工具kettle系列之常见问题