Kettle学习之路(2)理解一些基本概念
2017-03-17 10:03
232 查看
一、 跳(hop):
转换里的步骤通过跳(hop)来连接,跳定义了一个单项通道,允许数据从一个步骤向另一个步骤流动。在kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。数据流的另一个同义词就是记录流。
跳定义了步骤之间的数据通路。它实际上是两个步骤之间被称为行集的数据行缓存(行集的大小可以在转换的设置里定义)。当行集蛮力,向行集写数据的步骤讲停止写入,知道行集里又有了空间。当行集空了,从行集读数据的步骤停止读取,知道行集里又有了可读的数据行。
创建跳时,跳在转换里不能循环。因为转换里没个步骤都依赖前一个步骤获取字段。
二、步骤:
1)步骤需要一个名字,这个名字在这个转换范围内唯一。
2)步骤将数据写到与之相连的一个或多个输出跳,再传输到跳到另一端的步骤。对另一端步骤来说这个跳就是输入跳,步骤通过输入跳接收数据。
3)大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为轮流发送和复制发送。轮流发送是将数据行依次发送给每一个输出跳,复制发送是将全部数据行发送给所有输出跳。
4)在运行转换时,一个线程运行一个步骤和步骤的多个拷贝,所有步骤的线程几乎同时运行,数据行连续地流过步骤之间的跳。
所有的步骤都以并发的方式执行:当转换启动后,所有步骤同时启动,从它们的输入跳中读取数据,并把处理过数据写入输出跳,知道输入跳里不再有数据就终止步骤的运行。当所有步骤都终止了,整个转换就终止了。
三、作业:
一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳和每个作业项的执行结果来决定。
作业跳是作业项之间的连接线,它定义了作业的执行路径。作业里每个作业项的不同运行结果决定了作业的不同执行路径。2)无条件执行:黑色连线上会有一把锁;2)当运行结果为真时执行:绿色连线上会有一个对勾;3)当运行结果为假时执行:红色连线上会有一个停止的图标。
因为作业是可以嵌套的,除了作业项有运行结果,作业也需要一个运行结果,因为一个作业可以是另一个作业的作业项。一个作业的运行结果,来自于它最后一个执行的作业项。
四、连接和事务:
数据库连接只在执行作业和转换时使用。在作业里,每一个作业项都打开和关闭一个独立的数据库连接。转换也是如此。但是因为转换里的步骤是并行执行的,每个步骤都打开一个独立的数据库连接并开始一个事务。尽管这样在很多情况下会提高性能,但当不同步骤更新同一个表时,也会带来锁和参照完整性的问题。
为解决打开多个连接而产生的问题,转换设置对话框的选项“转换放在数据库事务中”,可以完成此功能。所有步骤里的数据库连接都使用同一个数据库连接。只有所有步骤都正确,转换正确执行,才提交事务,否则回滚事务。
一、 跳(hop):
转换里的步骤通过跳(hop)来连接,跳定义了一个单项通道,允许数据从一个步骤向另一个步骤流动。在kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。数据流的另一个同义词就是记录流。
跳定义了步骤之间的数据通路。它实际上是两个步骤之间被称为行集的数据行缓存(行集的大小可以在转换的设置里定义)。当行集蛮力,向行集写数据的步骤讲停止写入,知道行集里又有了空间。当行集空了,从行集读数据的步骤停止读取,知道行集里又有了可读的数据行。
创建跳时,跳在转换里不能循环。因为转换里没个步骤都依赖前一个步骤获取字段。
二、步骤:
1)步骤需要一个名字,这个名字在这个转换范围内唯一。
2)步骤将数据写到与之相连的一个或多个输出跳,再传输到跳到另一端的步骤。对另一端步骤来说这个跳就是输入跳,步骤通过输入跳接收数据。
3)大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为轮流发送和复制发送。轮流发送是将数据行依次发送给每一个输出跳,复制发送是将全部数据行发送给所有输出跳。
4)在运行转换时,一个线程运行一个步骤和步骤的多个拷贝,所有步骤的线程几乎同时运行,数据行连续地流过步骤之间的跳。
所有的步骤都以并发的方式执行:当转换启动后,所有步骤同时启动,从它们的输入跳中读取数据,并把处理过数据写入输出跳,知道输入跳里不再有数据就终止步骤的运行。当所有步骤都终止了,整个转换就终止了。
三、作业:
一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳和每个作业项的执行结果来决定。
作业跳是作业项之间的连接线,它定义了作业的执行路径。作业里每个作业项的不同运行结果决定了作业的不同执行路径。2)无条件执行:黑色连线上会有一把锁;2)当运行结果为真时执行:绿色连线上会有一个对勾;3)当运行结果为假时执行:红色连线上会有一个停止的图标。
因为作业是可以嵌套的,除了作业项有运行结果,作业也需要一个运行结果,因为一个作业可以是另一个作业的作业项。一个作业的运行结果,来自于它最后一个执行的作业项。
四、连接和事务:
数据库连接只在执行作业和转换时使用。在作业里,每一个作业项都打开和关闭一个独立的数据库连接。转换也是如此。但是因为转换里的步骤是并行执行的,每个步骤都打开一个独立的数据库连接并开始一个事务。尽管这样在很多情况下会提高性能,但当不同步骤更新同一个表时,也会带来锁和参照完整性的问题。
为解决打开多个连接而产生的问题,转换设置对话框的选项“转换放在数据库事务中”,可以完成此功能。所有步骤里的数据库连接都使用同一个数据库连接。只有所有步骤都正确,转换正确执行,才提交事务,否则回滚事务。
相关文章推荐
- Kettle学习之路(1)理解一些基本概念
- 关于数据挖掘其中的一些基本概念的理解
- java --- 入门时的一些基本概念的理解(j2ee,j2se,j2me,jdk,jre,jvm,跨平台)
- 初步接触angular.js---一些基本概念的理解
- java入门时的一些基本概念的理解(j2ee,j2se,j2me,jdk,sdk,jre,jvm,跨平台)
- Java入门时的一些基本概念的理解(j2ee,j2se,j2me,jdk,sdk,jre,jvm,跨平台)
- 理解JavaScript的一些基本概念
- 数据库中一些基本概念的深入理解
- 使用CORBA应理解的一些基本概念
- STL:一些基本概念的粗浅理解和一些别人的经验
- 我理解的Java并发基础(一):一些基本概念
- (转)java入门时的一些基本概念的理解(j2ee,j2se,j2me,jdk,sdk,jre,jvm,跨平台)
- 我所理解的IO基础:IO、NIO、AIO的一些基本概念
- 对音频及语音的一些基本概念理解
- UML学习笔记(二):复习面向对象的一些基本概念
- 数据结构中关于图的一些基本概念
- 对一些概念的理解
- C++中一些基本概念
- 计算机的一些基本概念
- 一张图更好的帮助你理解盒状模型中的一些概念