使用etl工具kettle比较数据文件是否有变更
2016-11-02 11:06
274 查看
原先是用python来实现的,参照例子:http://pbpython.com/excel-diff-pandas.html,现在考虑用elt工具kettle来实现类似的功能。
对原有的例子稍加改造,删除两行记录,并添加新的两行记录,使用转换中的“合并记录”功能,比较有可能会发生变化的字段,如果不知道就全选,标志字段是合并后新增的字段,用来标注某条记录是否有变化,没有变化是“identical‘;有变化会有两条记录,一条”deleted",一条“new";删除的只有"deleted”,新增的只有"new“。
筛选一下去掉identical的记录,剩下的就是所有删除、变更、新增的记录:
对原有的例子稍加改造,删除两行记录,并添加新的两行记录,使用转换中的“合并记录”功能,比较有可能会发生变化的字段,如果不知道就全选,标志字段是合并后新增的字段,用来标注某条记录是否有变化,没有变化是“identical‘;有变化会有两条记录,一条”deleted",一条“new";删除的只有"deleted”,新增的只有"new“。
筛选一下去掉identical的记录,剩下的就是所有删除、变更、新增的记录:
相关文章推荐
- 数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )
- 获悉文件服务器上的变化和数据访问情况,推荐使用NetWrix文件服务器免费变更通知工具
- 八步学会数据迁移:ETL工具kettle使用方法
- ETL工具kettle(4.+) 使用java编程生成.ktr文件
- ORACLE使用dbv工具检验数据文件是否有坏块
- ETL工具kettle的使用二——怎么实现数据连接的重复使用
- 数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )
- ETL工具kettle与java结合使用程序生成一个简单的转化文件
- 数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )
- hadoop学习之-使用ODCH工具实现oralce外部表访问HDFS数据文件
- 查看Oracle数据库表空间大小(空闲、已使用),是否要增加表空间的数据文件
- C# 判断 检测 access 建库 建表 文件是否存在等 数据操作 使用 ADOX
- 使用AMDU工具从无法MOUNT的DISKGROUP中抽取数据文件
- 使用AMDU工具从无法MOUNT的DISKGROUP中抽取数据文件
- ArrayList 与HashSet的比较,及应用反射读取properties配置文件中的数据进行实例化再调用,以及类加载器的使用;还有HashCode的分析,及导致内存泄露,内存溢出的原因之一
- Oracle Data Pump 工具系列:使用 %U 和 filesize 参数将大数据拆分成小文件导出
- 查看Oracle数据库表空间大小(空闲、已使用),是否要增加表空间的数据文件
- 关于使用ETL工具Kettle的简单介绍(一)
- 使用Python的MD5模块比较两个文件是否一致
- 查看Oracle数据库表空间大小(空闲、已使用),是否要增加表空间的数据文件