ETL总结
2017-06-19 10:48
204 查看
Tagetik ETL 网络结构如下:
基础知识:
1.一般企业系统较多,系统与系统之间要共享数据,需要建立一个数据仓库,如上图所示,ODS就是系统仓库,他的存在为系统间共享数据提供可能。ODS的表必须与数据来源系统的表一致,不应该因其他需求修改表,如建索引增加除标识字段以外的字段,以保证其他系统拿到的数据是纯净的数据。
2.Tagetik EDW 仓库为访问ODS,一般使用数据库连接来实现。这里的EDW仓库和TA数据库代表的都是物理数据库集合。他们都是Tagetik应用直接访问的数据库,也可以说EDW等于Tagetik数据库集合。 TA的ETL是软件自集成的功能,在TA WEB后台完成。
3.常用的ETL最终需要定时JOB。
Domain:
整个ETL的基础配置包含在DOMAIN中,DOMAIN可以理解成ETL实例的原材料容器,其中包含:维度和字典、参数、数据源、查找表、上载目标等。
Rountine:
ETL的实例程序,他是根据DOMAIN中的“原材料”来定制一个ETL的程序。
Job:
批量运行ROUTINE,它只会运行ROUTINE配置时激活的配置。
TA ETL数据流动:
对于复杂的情景无法通过ETL完成抽数,可以使用存储过程来写入数据。
问题总结:
1.运行ROUTINE/JOB在上载数据的时候,数据处理框中实例一直在运行、卡主。结束实例短时间无效。原因是因为在运行ETL的前后,上载目标表有相应DML操作没有被提交导致的。
2.对于维度上数据在数据提取前已经存在数据的情况,应该在数据源中添加该字段,并给对应维度赋值,否则会报空指针异常。
基础知识:
1.一般企业系统较多,系统与系统之间要共享数据,需要建立一个数据仓库,如上图所示,ODS就是系统仓库,他的存在为系统间共享数据提供可能。ODS的表必须与数据来源系统的表一致,不应该因其他需求修改表,如建索引增加除标识字段以外的字段,以保证其他系统拿到的数据是纯净的数据。
2.Tagetik EDW 仓库为访问ODS,一般使用数据库连接来实现。这里的EDW仓库和TA数据库代表的都是物理数据库集合。他们都是Tagetik应用直接访问的数据库,也可以说EDW等于Tagetik数据库集合。 TA的ETL是软件自集成的功能,在TA WEB后台完成。
3.常用的ETL最终需要定时JOB。
Domain:
整个ETL的基础配置包含在DOMAIN中,DOMAIN可以理解成ETL实例的原材料容器,其中包含:维度和字典、参数、数据源、查找表、上载目标等。
Rountine:
ETL的实例程序,他是根据DOMAIN中的“原材料”来定制一个ETL的程序。
Job:
批量运行ROUTINE,它只会运行ROUTINE配置时激活的配置。
TA ETL数据流动:
对于复杂的情景无法通过ETL完成抽数,可以使用存储过程来写入数据。
问题总结:
1.运行ROUTINE/JOB在上载数据的时候,数据处理框中实例一直在运行、卡主。结束实例短时间无效。原因是因为在运行ETL的前后,上载目标表有相应DML操作没有被提交导致的。
2.对于维度上数据在数据提取前已经存在数据的情况,应该在数据源中添加该字段,并给对应维度赋值,否则会报空指针异常。
相关文章推荐
- 我对ORACLE BI 的ETL的一些总结(原)
- DataStage(ETL)技术总结 -- 介绍篇
- etl测试学习总结
- ETL总结世界杯皇冠体育足球源码下载(扫盲版)
- ETL kettle 自学总结
- ETL工具总结
- ETL之kettle使用总结:(批量、含常量)csv入库
- ETL 如何找增量数据 总结
- ETL设计和Cube建模经验总结
- 数据仓库之ETL漫谈-实战总结理论
- DataStage(ETL)技术总结
- ETl的工具(Kettle)和AIX服务器定时任务总结
- ETL 如何找增量数据 总结
- ETL 总结
- DataStage(ETL)技术总结 -- 介绍篇(转载)
- ETL的经验总结
- DataStage(ETL)技术总结-介绍篇
- DataStage(ETL)技术总结 -- 介绍篇(转载)
- 自己总结的etl数挖掘据工具-Kettle
- 我对ORACLE BI 的ETL的一些总结